Насколько я понимаю, мы не должны позволять тому же набору данных, который мы анализируем, управлять / определять, как выглядят предыдущие распределения в байесовском анализе. В частности, неуместно определять предыдущие распределения для байесовского анализа, основанные на сводной статистике из того же набора данных, который вы затем будете использовать приоры, чтобы помочь вписать модель.
Кто-нибудь знает о ресурсах, которые конкретно обсуждают это как неуместное? Мне нужны цитаты по этому вопросу.
Ответы:
Да, это неуместно, потому что он использует одни и те же данные дважды, что приводит к ложно чрезмерно уверенным результатам. Это известно как «двойное погружение».
Для справки я бы начал с Карлина и Луи (2000). Хотя «двойное погружение» было одним из основных критических замечаний Эмпирического Байеса, гл. 3, в частности раздел 3.5 этой книги, описывает способы оценки подходящих доверительных интервалов с использованием метода EB.
Бергер Дж. (2006). \ Случай объективного байесовского анализа. Байесовский анализ, 1 (3), 385 {402
Брэдли П. Карлин, Томас А. Луис 2000. Байесовские и эмпирические байесовские методы анализа данных.
Darniede, WF 2011. Байесовские методы для зависимых от данных априоров. MS Диссертация, штат Огайо Univ.
Гельман, А., Карлин, Дж. Б., Стерн, Х. С. и Рубин, Д. Б. (2003), Байесовский анализ данных, второе издание (тексты Чепмена и Холла / CRC в статистической науке), Chapman and Hall / CRC, 2-е редактор
источник
Хотя может иметь смысл использовать данные для построения предыдущего.
Для примера в моделировании смеси см. Richardson & Green (1997): http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.27.3667.
Они используют среднее значение и диапазон точек данных в качестве гиперпараметров для предыдущего, и это имеет смысл.
На мой взгляд, проблема использования данных дважды возникает, когда на основе этих данных получен информационный априор.
Пока вы проверяете, что ваше предыдущее распределение является «плоским» там, где апостериорное распределение достигает максимума, вы знаете, что ваше предыдущее распределение не оказывает сильного влияния на результаты.
источник