Почему кто-то использует байесовский подход с «неинформативным» неподобающим предшествующим вместо классического подхода?

44

Если интерес представляет собой просто оценка параметров модели (точечная и / или интервальная оценка) и предшествующая информация не является надежной, слабой (я знаю, что это немного расплывчато, но я пытаюсь создать сценарий, в котором выбор до этого сложно) ... Почему кто-то решил использовать байесовский подход с «неинформативными» неподходящими априорными вместо классического подхода?


источник
1
Спасибо всем за такие интересные мысли об этой противоречивой части байесовской статистики. Я читал и сравнивал ваши очки. Существуют интересные аргументы, подтверждающие его использование с точки зрения формальных правил, практичности и интерпретации. Я выберу ответ в какой-то момент, но я боюсь, что это будет очень трудная задача.

Ответы:

24

Есть две причины, по которым можно использовать байесовский подход, даже если вы используете крайне неинформативные приоры:

  • Проблемы сходимости. Есть некоторые распределения (биномиальные, отрицательные биномиальные и обобщенные гамма - те, с которыми я больше всего знаком), которые имеют проблемы сходимости нетривиальное количество времени. Вы можете использовать «байесовский» фреймворк и, в частности, методы Монте-Карло с цепью Маркова (MCMC), чтобы по существу преодолеть эти проблемы сходимости с вычислительной мощностью и получить из них приличные оценки.
  • Интерпретация. Байесовская оценка + доверительный интервал + 95% имеет более интуитивную интерпретацию, чем оценочная частота + 95% -ный доверительный интервал, поэтому некоторые могут предпочесть просто сообщить о них.
фомиты
источник
3
MCMC на самом деле не Байесовский метод. Вы можете просто получить оценки из вашей целевой вероятности (не апостериорной), если конвергенция является проблемой.
Скоттязь
16

Хотя результаты будут очень похожи, их интерпретации различаются.

Доверительные интервалы подразумевают идею многократного повторения эксперимента и возможности зафиксировать истинный параметр в 95% случаев. Но вы не можете сказать, что у вас есть 95% -ный шанс на это.

Достоверные интервалы (байесовские), с другой стороны, позволяют сказать, что существует 95% «вероятность» того, что интервал фиксирует истинное значение. Обновление: более Байесовский способ сказать, что вы можете быть на 95% уверены в своих результатах.

P(Data|Hypothesis)P(Hypothesis|Data)

Доминик Комтуа
источник
1
Я могу быть смущен здесь, но как «истинная ценность» вписывается в байесовские рамки? Может быть, вы имеете в виду апостериорный режим (или среднее, или .. и т. Д.)?
Макрос
Я имею в виду любой параметр (численность населения), который вы оцениваете с помощью выборочной статистики, будь то среднее, среднее различие, наклон регрессии ... Короче, что вы ищете.
Доминик Комтуа
1
Да, но не означает ли «истинное значение», что параметр является константой (т.е. его распределение является точечной массой)? Кажется, что вся концепция рассмотрения апостериорного распределения не соответствует представлению о параметрах таким образом.
Макро
9

±2σ

Обеспечение полного апостериорного распределения параметров является преимуществом байесовского подхода по сравнению с классическими методами, которые обычно обеспечивают только точечную оценку параметров, представленных модой функции правдоподобия, и используют предположения асимптотической нормальности и квадратичное приближение. функции логарифмического правдоподобия для описания неопределенностей. С байесовской структурой нет необходимости использовать какое-либо приближение для оценки неопределенностей, поскольку доступно полное апостериорное распределение параметров. Кроме того, байесовский анализ может обеспечить достоверные интервалы для параметров или любой функции параметров, которые легче интерпретируются, чем концепция доверительного интервала в классической статистике (Congdon, 2001).

Так, например, вы можете рассчитать достоверные интервалы для разницы между двумя параметрами.

Wayne
источник
6

Сэр Гарольд Джеффрис был сильным сторонником байесовского подхода. Он показал, что если вы используете диффузные неправильные априоры, результирующий байесовский вывод будет таким же, как частный логический подход (т. Е. Байесовские вероятные регионы совпадают с доверительными интервалами частотников). Большинство байесовцев защищают правильные информационные информаторы. Есть проблемы с неподходящими априорами, и некоторые могут утверждать, что ни один из них не является действительно неинформативным. Я думаю, что байесовцы, которые используют эти Джеффриса, делают это как последователи Джеффриса. Деннис Линдли , один из сильнейших сторонников байесовского подхода, очень уважал Джеффриса, но выступал за информативные приоры.

Майкл Р. Черник
источник
1
+1 за первые несколько строк вашего ответа. По моему мнению, причина выбора приоритета Джеффриса вместо «неинформативного» не просто в качестве последователя Джеффриса. Это потому, что на самом деле это все равно, что не делать предположений, тогда как так называемый неинформативный априор делает предположение о параметризации.
Нил Г
1
@NeilG Я также обнаружил, что некоторым людям нравится использовать их для «Fail Frequentist» (в том же смысле, что и Fail Safe) при использовании неинформативных априорных значений, так что их может интерпретировать наивный читатель.
Fomite
@EpiGrad: Что ты имеешь в виду? (Извините, мое понимание статистики часто очень плохое.)
Нил Дж
1
@NeilG По существу, использование предшественника Джеффри даст вам то, что ожидает увидеть кто-то, обученный в области частых исследований. Это достойная золотая середина, когда работа в помещенных байесовских методах не очень проникла.
Fomite
@NeilG Я также забыл, что, как и в моем ответе, если вы используете MCMC для проведения анализа частоты, обходя проблемы конвергенции, то предварительное решение Джеффри также полезно.
Fomite
6

Байесовский подход имеет практические преимущества. Это помогает с оценкой, часто являющейся обязательной. И это позволяет создавать новые семейства моделей и помогает в построении более сложных (иерархических, многоуровневых) моделей.

Например, в смешанных моделях (включая случайные эффекты с параметрами дисперсии) можно получить более точные оценки, если параметры дисперсии оцениваются путем маргинализации по параметрам более низкого уровня (коэффициенты модели; это называется REML ). Байесовский подход делает это естественно. С этими моделями, даже с REML, оценки максимальной вероятности (ML) параметров дисперсии часто равны нулю или смещены вниз. Правильный априор для параметров дисперсии помогает.

Даже если используется точечная оценка ( MAP , максимум апостериори), приоры меняют семейство моделей. Линейная регрессия с большим набором несколько коллинеарных переменных неустойчива. Регуляризация L2 используется как исправление, но она интерпретируется как байесовская модель с гауссовой (неинформативной) предварительной оценкой и MAP. (Регуляризация L1 - это другой априор и дает разные результаты. На самом деле, здесь априор может быть несколько информативным, но он касается коллективных свойств параметров, а не одного параметра.)

Таким образом, есть некоторые общие и относительно простые модели, где для достижения цели необходим байесовский подход!

Еще более предпочтительны более сложные модели, такие как скрытое распределение Дирихле (LDA), используемое в машинном обучении. А некоторые модели по своей природе являются байесовскими, например, основанные на процессах Дирихле .

scellus
источник
6

practicalθ^=θ^(x1,,xn)ΘfXn+1Θ(xn+1θ)fXn+1Θ(xn+1θ^)θ^

fXn+1X1,,Xm(xn+1x1,,xn)=fXn+1Θ(xn+1θ)π(θx1,,xn)dθ.
Zen
источник
6
βlog(σ2)
Связанный с комментарием @ Cyan.
4

Есть несколько причин:

  1. ±SE
  2. Свойства большой выборки обычно полностью идентичны некоторому соответствующему подходу к частоте.
  3. Часто существует значительное нежелание договариваться о каких-либо приорах, независимо от того, сколько мы на самом деле знаем, из-за страха быть обвиненным в «не объективности». Используя неинформативные априоры («без априоров»), можно делать вид, что такой проблемы нет, что позволит избежать критики со стороны некоторых рецензентов.

Теперь о недостатках простого использования неинформативных априорных слов, начнем с того, что я считаю наиболее важным, а затем перейдем к некоторым также весьма важным техническим аспектам:

  1. Честно говоря, интерпретация того, что вы получаете, почти такая же, как и для частых умозаключений. Вы не можете просто пометить свой вывод о максимальном правдоподобии для часто повторяющихся данных как байесовский максимальный апостериорный вывод и утверждать, что это освобождает вас от любых опасений по поводу множественных сравнений, множественного взгляда на данные и позволяет интерпретировать все утверждения с точки зрения вероятности того, что некоторые гипотезы правда. Конечно, ошибки типа I и т. Д. Являются частыми понятиями, но мы, как ученые, должны заботиться о том, чтобы делать ложные заявления, и мы знаем, что выполнение вышеизложенного вызывает проблемы. Многие из этих проблем уходят (или, по крайней мере, являются намного меньшей проблемой), если вы встраиваете вещи в иерархическую модель / делаете что-то эмпирическое по Байесу, но обычно это сводится к неявному генерированию априоров с помощью процедуры анализа, включая основание для вашего априора в вашу модель (и альтернативой этому является явное формулирование априоров). Эти соображения часто игнорируются, по моему мнению, в основном для проведения байесовского p-хакерства (то есть, вводить множественность, но игнорировать его) с фиговым листком оправдания, что это не проблема, когда вы используете байесовские методы (опуская все условия, которые должны быть выполнены).
  2. С более «технической» стороны неинформативные приоры являются проблематичными, потому что вам не гарантирован правильный задний план. Многие люди установили байесовские модели с неинформативными априорами и не поняли, что апостериор неправильный. В результате были получены образцы MCMC, которые были практически бессмысленными.

Последний пункт - аргумент в пользу предпочтения довольно расплывчатых (или немного более слабоинформативных) априорных значений, обеспечивающих правильную апостериорность. По общему признанию, иногда может быть трудно выбрать из них также, и может быть трудно заметить, что весь задний слой не был исследован. Однако было показано, что байесовские методы с неопределенными (но правильными) приорами во многих областях имеют действительно хорошие свойства небольших выборок с частой точки зрения, и вы, безусловно, можете увидеть, что в качестве аргумента для их использования, хотя с немного большим количеством данных вряд ли любая разница по сравнению с методами с неинформативными априорными

Бьерн
источник