Динамический расчет количества образцов, необходимых для оценки среднего

9

Я пытаюсь оценить среднее значение более или менее гауссовского распределения с помощью выборки. У меня нет предварительных знаний о его значении или его дисперсии. Каждый образец дорогой для получения. Как мне динамически решить, сколько образцов мне нужно, чтобы получить определенный уровень достоверности / точности? Или как узнать, когда я могу прекратить брать образцы?

Кажется, что все ответы на подобные вопросы, которые я могу найти, предполагают наличие некоторого знания о дисперсии, но я должен это обнаружить и на этом пути. Другие ориентированы на участие в опросах, и мне (как новичку, так и не понятно), как это обобщается - я имею в виду среднее значение не с [0,1] и т. Д.

Я думаю, что это, вероятно, простой вопрос с хорошо известным ответом, но мой Google-фу подводит меня. Даже просто сказать мне, что искать, было бы полезно.

оборота Джош Блихер Снайдер
источник
Любая причина, почему вы отметили это как CW? Вопрос кажется достаточно конкретным, чтобы дать один правильный ответ, и поэтому не должен быть CW.
1
@ Джош, все в порядке. Мне было просто любопытно о вашем выборе.
1
Google "адаптивная выборка" и "последовательная выборка". Если вы все еще застряли, включите «Уолд» в качестве ключевого слова, а затем работайте исторически (т. Е. Посмотрите на статьи, которые ссылаются на работу Уолда по последовательной выборке, затем посмотрите на статьи, которые ссылаются на них и т. Д.).
whuber
1
@Robby McKilliam: Но какие данные вы используете? Этот вопрос возникает до сбора каких-либо данных. Если вы собираете значения по одному и вычисляете КИ после добавления каждого нового в набор данных, вы не можете использовать стандартные формулы для интервалов из-за проведенного вами сопоставленного множественного сравнения. Таким образом, вам необходимо правило остановки, которое оптимизирует сумму статистического риска вашего оценщика и стоимость сбора каждой дополнительной выборки.
whuber
1
@ Whuber спасибо! Я все еще перевариваю материал, но думаю, что это именно то, что я ищу. Если бы это был ответ, я бы принял это ...
Джош Блихер Снайдер

Ответы:

2

Вам нужно искать «Байесовский адаптивный дизайн». Основная идея заключается в следующем:

  1. Вы инициализируете приоритет для параметров, представляющих интерес.

    Перед любым сбором данных ваши априоры будут размыты. По мере поступления дополнительных данных вы переустанавливаете значение prior до апостериорного значения, которое соответствует «априор + данные до этого момента времени».

  2. Собирать данные.

  3. Вычислить апостериор на основе данных + априоры. Апостериорный затем используется как предыдущий на шаге 1, если вы действительно собираете дополнительные данные.

  4. Оцените, удовлетворены ли ваши критерии остановки

    Критерии остановки могут включать что-то вроде доверительного интервала в 95%, который не должен превышать единиц для интересующих параметров. Вы также можете иметь более формальные функции потерь, связанные с интересующими параметрами, и рассчитать ожидаемые потери с учетом апостериорного распределения для интересующего параметра.±ε

Затем вы повторяете шаги 1, 2 и 3 до тех пор, пока не будут выполнены ваши критерии остановки из шага 4.

user28
источник
0

Обычно вы хотите, чтобы по крайней мере 30 вызывали центральную предельную теорему (хотя это несколько произвольно). В отличие от опроса и т. Д., Которые смоделированы с использованием биномиального распределения, вы не можете заранее определить размер выборки, который гарантирует уровень точности при гауссовском процессе - это зависит от того, какие вы получаете остатки, которые определяют стандартную ошибку.

Следует отметить, что если у вас есть надежная стратегия выборки, вы можете получить гораздо более точные результаты, чем при гораздо большем размере выборки при плохой стратегии.

Джеймс
источник
3
Зачем нужно вызывать CLT при выборке из известного (или предполагаемого) распределения Гаусса? Среднее значение даже для одной выборки будет нормально распределено!
whuber
Хорошая точка зрения! Не правильно RTQ.
Джеймс