Выполняя байесовский вывод, мы действуем путем максимизации нашей функции правдоподобия в сочетании с имеющимися у нас априорами в отношении параметров. Поскольку логарифмическая правдоподобность более удобна, мы эффективно максимизируем используя MCMC или другим способом, который генерирует апостериорные распределения (используя pdf для каждый параметр предшествует и вероятность каждой точки данных).
Если у нас много данных, то вероятность того, что они превзойдут любую информацию, предоставленную предыдущим, простой математикой. В конечном счете, это хорошо и по замыслу; мы знаем, что апостериорные значения будут сходиться только к вероятности с большим количеством данных, потому что это должно быть.
Для задач, определенных сопряженными априорными данными, это даже точно доказуемо.
Есть ли способ решить, когда априорные значения не имеют значения для данной функции вероятности и некоторого размера выборки?
Ответы:
Это не так просто. Информация в ваших данных переполняет предшествующую информацию, причем не только размер вашей выборки велик, но и когда ваши данные предоставляют достаточно информации, чтобы превзойти предыдущую информацию. Неинформативные приоритеты легко убедить данными, в то время как сильно информативные могут быть более устойчивыми. В крайнем случае, с плохо определенными априорами, ваши данные могут вообще не быть в состоянии преодолеть это (например, нулевая плотность по некоторому региону).
Напомним, что по теореме Байеса мы используем два источника информации в нашей статистической модели: отсутствующие данные, предварительная информация и информация, передаваемая данными в функции вероятности :
При использовании неинформативного предварительного (или максимального правдоподобия) мы стараемся внести в нашу модель минимально возможную предварительную информацию. Благодаря информативным априорам мы вносим существенный объем информации в модель. Таким образом, как данные, так и предыдущие, сообщают нам, какие значения оценочных параметров являются более правдоподобными или правдоподобными. Они могут приносить различную информацию, и в некоторых случаях каждый из них может обойти другого.
Позвольте мне проиллюстрировать это очень простой бета-биномиальной моделью ( подробный пример приведен здесь ). С «неинформативным» предыдущим , достаточно небольшой выборки, чтобы ее преодолеть. На графиках ниже вы можете увидеть арисы (красная кривая), вероятность (синяя кривая) и постеры (фиолетовая кривая) одной и той же модели с разными размерами выборки.
С другой стороны, у вас может быть информационный априор, близкий к истинному значению, который также будет легко, но не так легко, как с еженедельным информативным, убедить данными.
Случай с информативным априором сильно отличается, когда он далек от того, что говорят данные (используя те же данные, что и в первом примере). В таком случае вам нужно больше образца, чтобы преодолеть предшествующее.
Таким образом, речь идет не только о размере выборки, но и о том, какие у вас данные и какие у вас данные. Обратите внимание, что это желаемое поведение, потому что при использовании информативных априоров мы хотим включить в нашу модель информацию об отсутствии данных, и это было бы невозможно, если бы большие выборки всегда отбрасывали априоры.
Из-за сложных отношений апостериорных вероятностно-приоритетных всегда полезно взглянуть на апостериорное распределение и сделать некоторые апостериорные прогностические проверки (Gelman, Meng and Stern, 1996; Gelman and Hill, 2006; Gelman et al, 2004). Более того, как описано Spiegelhalter (2004), вы можете использовать разные априоры, например, «пессимистичные», которые выражают сомнения относительно больших эффектов, или «восторженные», которые с оптимизмом смотрят на предполагаемые эффекты. Сравнение того, как различные априорные поведения ведут себя с вашими данными, может помочь неофициально оценить степень влияния апостериорного на предыдущую.
Шпигельхальтер, DJ (2004). Включение байесовских идей в оценку здравоохранения. Статистическая наука, 156-174.
Гельман А., Карлин Дж. Б., Стерн Х.С. и Рубин Д.Б. (2004). Байесовский анализ данных. Чепмен и Холл / CRC.
Gelman, A. and Hill, J. (2006). Анализ данных с использованием регрессионных и многоуровневых / иерархических моделей. Издательство Кембриджского университета.
Gelman A., Meng XL и Stern H. (1996). Задняя прогнозная оценка пригодности модели через выявленные расхождения. Statistica sinica, 733-760.
источник
Это на самом деле не то, что большинство практикующих считают байесовским умозаключением. Таким способом можно оценить параметры, но я бы не назвал это байесовским выводом.
Байесовский вывод использует апостериорные распределения для вычисления апостериорных вероятностей (или отношений вероятностей) для конкурирующих гипотез.
Задние распределения могут быть оценены эмпирически с помощью методов Монте-Карло или Марков-Цепи Монте-Карло (MCMC).
Отложив эти различия в сторону, вопрос
все еще зависит от контекста проблемы и того, что вас волнует.
Если вас беспокоит предсказание на основе уже очень большой выборки, тогда ответ, как правило, положительный, априорные значения асимптотически не имеют значения *. Однако, если вас волнует выбор модели и тестирование байесовской гипотезы, то ответ - нет, априорные значения имеют большое значение, и их влияние не ухудшится с размером выборки.
* Здесь я предполагаю, что априоры не усечены / не подвергнуты цензуре за пределами пространства параметров, подразумеваемого вероятностью, и что они не настолько плохо определены, чтобы вызвать проблемы сходимости с почти нулевой плотностью в важных регионах. Мой аргумент также асимптотичен, что сопровождает все обычные предостережения.
Прогнозируемая плотность
Выбор модели и проверка гипотез
Если кто-то заинтересован в выборе байесовской модели и проверке гипотез, он должен знать, что эффект предшествующего не исчезает асимптотически.
Однако мы можем также подумать о последовательном добавлении наблюдений в нашу выборку и записать предельную вероятность в виде цепочки прогнозирующих вероятностей ;
источник
Еще одна проблема, о которой следует помнить, это то, что у вас может быть много данных , но при этом очень мало информации об определенных параметрах в вашей модели. В таких случаях даже слегка информативный априор может быть чрезвычайно полезным при выполнении логического вывода.
В качестве глупого примера, предположим, что вы сравнивали средние значения для двух групп, и у вас было 1 000 000 выборок из группы 1 и 10 выборок из группы 2. Тогда четкое наличие информативного априорного представления о группе 2 может улучшить выводы, даже если вы собрали более миллиона образцы.
И хотя этот пример может быть тривиальным, он начинает приводить к некоторым очень важным последствиям. Если мы хотим понять некоторые сложные явления, разумнее всего собрать много информации, касающейся частей, которые мы не понимаем, и меньше информации о частях, которые мы понимаем. Если мы собираем много данных таким образом, отбрасывание предыдущего, потому что у нас много данных, является действительно плохим выбором; мы просто отложили наш анализ, потому что мы не тратили время на сбор данных о вещах, которые мы уже знаем!
источник