Слабо информативные априорные распределения для параметров шкалы

21

Я использовал логарифмические нормальные распределения в качестве предыдущих распределений для параметров масштаба (для нормальных распределений, t-распределений и т. Д.), Когда у меня есть приблизительное представление о том, каким должен быть масштаб, но я хочу ошибиться, говоря, что я не знаю много об этом. Я использую это, потому что это использование имеет интуитивный смысл для меня, но я не видел, чтобы другие использовали это. Есть ли какие-то скрытые опасности для этого?

Джон Сальватье
источник
1
У нормалей есть сопряженные априоры: en.wikipedia.org/wiki/Normal-gamma_distribution . Вы можете найти их гораздо проще в использовании.
whuber
Интересный. Я делаю числовые вещи, есть ли преимущество этих распределений помимо конгруэнтности?
Джон Сальватье
5
Не совсем моя область, но это может иметь значение? Гельман А. Априорные распределения для параметров дисперсии в иерархических моделях. Байесовский анализ 2006; 1: 515-533. dx.doi.org/10.1214/06-BA117A
OneStop
Я нашел этот дистрибутив Scaled-Beta предложенный Пересом и Перикки. 2
Сопряженные априоры для определенного распределения, такого как нормальное, являются просто априорами, которые приводят к этому распределению в качестве апостериорного распределения с учетом набора данных. Если вы используете сопряженное ранее, вам не нужно вмешиваться в процесс интеграции для вычисления апостериорного значения. Это делает вещи удобными, но в наши дни MCMC значительно упрощает использование широкого спектра возможных априоров.
Майкл Р. Черник

Ответы:

20

Я бы порекомендовал использовать «Бета-распределение второго рода» (бета-версия 2 ) для слегка информативного распределения и использовать сопряженное обратное гамма-распределение, если у вас есть сильные предварительные убеждения. Причина, по которой я это говорю, заключается в том, что сопряженный априор не является устойчивым в том смысле, что, если априор и данные конфликтуют, априор оказывает неограниченное влияние на апостериорное распределение. Такое поведение я бы назвал «догматическим», и оно не оправдано мягкой предшествующей информацией.

Свойство, которое определяет устойчивость, является поведением хвоста предшествующего и вероятностного. Очень хорошая статья с изложением технических деталей здесь . Например, вероятность может быть выбрана (скажем, t-распределение) так, что в качестве наблюдения (т.е. становится произвольно большим) она отбрасывается из анализа параметра местоположения (во многом так же, как вы делать интуитивно с таким наблюдением). Скорость «отбрасывания» зависит от того, насколько тяжелы хвосты распределения.yi

Некоторые слайды, которые показывают применение в контексте иерархического моделирования, можно найти здесь (показывает математическую форму дистрибутива Beta 2 ), со статьей здесь .

Если вы не находитесь в контексте иерархического моделирования, то я бы предложил сравнить апостериорные (или любые другие результаты, которые вы создаете), но используйте ранее значение Джеффриса для параметра масштаба, который задается как . Это может быть создано как пределплотностиBeta2, таккак оба его параметра сходятся к нулю. Для приближения вы можете использовать небольшие значения. Но я бы попытался выработать решениеаналитически,если это вообще возможно (и если не полное аналитическое решение, получить аналитическое решение настолько далеко, насколько это возможно), потому что вы не только сэкономите себе некоторое вычислительное время, но вы Также, вероятно,лучше понять,что происходит в вашей модели.p(σ)1σ

Другой альтернативой является указание вашей предыдущей информации в виде ограничений (среднее значение равно , дисперсия равно V , IQR равно I Q R и т. Д. Со значениями M , V , I Q R, указанными вами самостоятельно), и затем используйте максимальное распределение энтропии (найдите любую работу Эдвина Джейнса или Ларри Бретторста, чтобы найти хорошее объяснение того, что такое максимальная энтропия и чем она не является) относительно «инвариантной меры» Джеффриса m ( σ ) = 1MVIQRM,V,IQR . m(σ)=1σ

MaxEnt - это версия Rolls Royce, в то время как Beta 2 - скорее версия седана. Причина этого заключается в том, что распределение MaxEnt «предполагает наименьшее» в зависимости от ограничений, которые вы на него наложили (например, отсутствие ограничений означает, что вы просто получите Jeffreys ранее), тогда как дистрибутив Beta 2 может содержать некоторые «скрытые» функции, которые может или не может быть желательным в вашем конкретном случае (например, если предыдущая информация является более надежной, чем данные, то бета-версия 2 является плохой).

Другим приятным свойством распределения MaxEnt является то, что если в механизме генерации данных не действуют неопределенные ограничения, то распределение MaxEnt в подавляющем большинстве случаев является наиболее вероятным распределением, которое вы увидите (мы говорим о вероятностях, превышающих миллиарды и триллионы к одному). Следовательно, если распределение, которое вы видите, не является MaxEnt, то, скорее всего, существуют дополнительные ограничения, которые вы не указали, действующие для истинного процесса, и наблюдаемые значения могут дать представление о том, каким может быть это ограничение.

probabilityislogic
источник
@probabilityislogic Хороший ответ. Вы знаете, где я могу найти документы, которые вы упоминаете в третьем абзаце? Ссылки не работают.
1
тот, который работает для бумаги здесь . Это было на веб-сайте конференции «Объектив Байес 09» (встречи в Валенсии). Я не думаю, что слайды больше не будут доступны, так как веб-сайт конференции был закрыт ... :( Жаль, это был хороший набор слайдов. Этот предварительный просмотр выглядит интересным по предоставленной вами ссылке.
probislogic
Beta2
@Procrastinator Могу ли я считать, что вы хотите только правильные приоры? Вы не сказали этого, но если вы допустите неправильные приоры, сработают уже упомянутые приоры Джеффриса, и я мог бы привести теорию вероятности Джеффриса, книги Денниса Линдли или энциклопедию статистики. То, как запрос можно проверить с помощью Google, чтобы найти ответ, а если его нет, вероятно, в литературе нет ничего, кроме тех, которые вы исключили.
Майкл Р. Черник
@MichaelChernick Да, вы правы, меня интересуют только правильные приоры. Причина этого заключается в том, что для правильных приоров (1) наличие апостериора не ограничивает определенные модели и (2) я хотел проверить, не пропускаю ли я еще одно интересное предложение. Я согласен с вами, что кажется, что приоры Гельмана, Перикки и Гаммы являются наиболее популярными в литературе, но я также отметил, что существует тенденция предлагать приоры с тяжелыми хвостами для получения «надежных» выводов.
13

Следующая статья Дэниелса сравнивает различные усадки априорных значений для дисперсии. Это правильные приоры, но я не уверен, сколько из них можно назвать неинформативными, если таковые имеются. Но он также предоставляет список неинформативных априорных значений (не все правильные). Ниже ссылка.

MJ Daniels (1999), априор для дисперсии в иерархических моделях , Canadian J. Stat. том 27, нет. 3, с. 567–578.

Приоры

  1. K
  2. τ2
  3. τ1
  4. 1/(σ2+τ2)
  5. σ/(2(σ2+τ2)3/2)
  6. σ2/(σ2+τ2)
  7. σ/(2τ(σ+τ)2)

Еще одна более свежая статья в родственной теме заключается в следующем.

А. Гельман (2006), Априорные распределения для параметров дисперсии в иерархических моделях , Байесовский анализ , вып. 1, нет. 3, с. 515–533.

Майкл Р. Черник
источник
2
(+1) Это хорошая находка. Я добавил стабильную ссылку на статью Дэниела, а также другую ссылку, которая, кажется, дополняет ее.
кардинал
4

(Вопрос устарел, но проблема не в этом)

Лично я думаю, что ваша интуиция имеет какой-то смысл. То есть, если вам не нужна математическая чистота сопряженности, то какое бы распределение вы ни использовали для параметра местоположения, вы должны использовать то же самое для журнала параметра масштаба. Итак, вы говорите: используйте эквивалент обычного априора.

Вы действительно использовали бы обычный априор для параметра местоположения? Большинство людей сказали бы, что, если вы не сделаете дисперсию огромной, это, вероятно, немного «слишком догматично», по причинам, объясненным в других ответах здесь (неограниченное влияние). Исключением будет, если вы делаете эмпирический байес; то есть, используя ваши данные для оценки параметров вашего предыдущего.

Если вы хотите быть «слабоинформативным», вы, вероятно, выбрали бы распределение с более толстыми хвостами; очевидными кандидатами являются t распределений. Последний совет Гельмана, по- видимому, заключается в использовании с df 3-7. (Обратите внимание, что ссылка также поддерживает мое предложение о том, что вы хотите сделать то же самое для журнала масштаба, что вы сделали бы для местоположения). Таким образом, вместо lognormal вы можете использовать log-student-t. Для этого в stan вы можете сделать что-то вроде:

real log_sigma_y; //declare at the top of your model block
//...some more code for your model
log_sigma_y <- log(sigma_y); increment_log_prob(-log_sigma_y);
log_sigma_y ~ student_t(3,1,3); //This is a 'weakly informative prior'.

Тем не менее, я думаю, что если приведенный выше код слишком сложен для вас, вы, вероятно, можете избежать логарифмического априора с двумя оговорками. Во-первых, сделайте дисперсию этого предшествующего в несколько раз шире, чем ваше грубое предположение о том, насколько «вы не уверены»; Вы хотите слабо информативный априор, а не сильно информативный. И, во-вторых, как только вы подгоняете свою модель, проверьте заднюю медиану параметра и убедитесь, что ее журнал не слишком далеко от центра логнормального значения. «Не слишком далеко», вероятно, означает: менее двух стандартных отклонений и, предпочтительно, не более одного стандартного отклонения.

Джеймсон Куинн
источник
2

Для параметров масштаба иерархической модели я в основном использовал предложение Эндрю Гелмана об использовании сложенного нецентрального t-распределения. Это сработало довольно прилично для меня.

Джон Сальватье
источник