Я пытаюсь оценить среднее значение более или менее гауссовского распределения с помощью выборки. У меня нет предварительных знаний о его значении или его дисперсии. Каждый образец дорогой для получения. Как мне динамически решить, сколько образцов мне нужно, чтобы получить определенный уровень достоверности / точности? Или как узнать, когда я могу прекратить брать образцы?
Кажется, что все ответы на подобные вопросы, которые я могу найти, предполагают наличие некоторого знания о дисперсии, но я должен это обнаружить и на этом пути. Другие ориентированы на участие в опросах, и мне (как новичку, так и не понятно), как это обобщается - я имею в виду среднее значение не с [0,1] и т. Д.
Я думаю, что это, вероятно, простой вопрос с хорошо известным ответом, но мой Google-фу подводит меня. Даже просто сказать мне, что искать, было бы полезно.
источник
Ответы:
Вам нужно искать «Байесовский адаптивный дизайн». Основная идея заключается в следующем:
Вы инициализируете приоритет для параметров, представляющих интерес.
Перед любым сбором данных ваши априоры будут размыты. По мере поступления дополнительных данных вы переустанавливаете значение prior до апостериорного значения, которое соответствует «априор + данные до этого момента времени».
Собирать данные.
Вычислить апостериор на основе данных + априоры. Апостериорный затем используется как предыдущий на шаге 1, если вы действительно собираете дополнительные данные.
Оцените, удовлетворены ли ваши критерии остановки
Критерии остановки могут включать что-то вроде доверительного интервала в 95%, который не должен превышать единиц для интересующих параметров. Вы также можете иметь более формальные функции потерь, связанные с интересующими параметрами, и рассчитать ожидаемые потери с учетом апостериорного распределения для интересующего параметра.± ϵ
Затем вы повторяете шаги 1, 2 и 3 до тех пор, пока не будут выполнены ваши критерии остановки из шага 4.
источник
Обычно вы хотите, чтобы по крайней мере 30 вызывали центральную предельную теорему (хотя это несколько произвольно). В отличие от опроса и т. Д., Которые смоделированы с использованием биномиального распределения, вы не можете заранее определить размер выборки, который гарантирует уровень точности при гауссовском процессе - это зависит от того, какие вы получаете остатки, которые определяют стандартную ошибку.
Следует отметить, что если у вас есть надежная стратегия выборки, вы можете получить гораздо более точные результаты, чем при гораздо большем размере выборки при плохой стратегии.
источник