Я использовал логарифмические нормальные распределения в качестве предыдущих распределений для параметров масштаба (для нормальных распределений, t-распределений и т. Д.), Когда у меня есть приблизительное представление о том, каким должен быть масштаб, но я хочу ошибиться, говоря, что я не знаю много об этом. Я использую это, потому что это использование имеет интуитивный смысл для меня, но я не видел, чтобы другие использовали это. Есть ли какие-то скрытые опасности для этого?
distributions
bayesian
modeling
prior
maximum-entropy
Джон Сальватье
источник
источник
Ответы:
Я бы порекомендовал использовать «Бета-распределение второго рода» (бета-версия 2 ) для слегка информативного распределения и использовать сопряженное обратное гамма-распределение, если у вас есть сильные предварительные убеждения. Причина, по которой я это говорю, заключается в том, что сопряженный априор не является устойчивым в том смысле, что, если априор и данные конфликтуют, априор оказывает неограниченное влияние на апостериорное распределение. Такое поведение я бы назвал «догматическим», и оно не оправдано мягкой предшествующей информацией.
Свойство, которое определяет устойчивость, является поведением хвоста предшествующего и вероятностного. Очень хорошая статья с изложением технических деталей здесь . Например, вероятность может быть выбрана (скажем, t-распределение) так, что в качестве наблюдения (т.е. становится произвольно большим) она отбрасывается из анализа параметра местоположения (во многом так же, как вы делать интуитивно с таким наблюдением). Скорость «отбрасывания» зависит от того, насколько тяжелы хвосты распределения.yi→∞
Некоторые слайды, которые показывают применение в контексте иерархического моделирования, можно найти здесь (показывает математическую форму дистрибутива Beta 2 ), со статьей здесь .
Если вы не находитесь в контексте иерархического моделирования, то я бы предложил сравнить апостериорные (или любые другие результаты, которые вы создаете), но используйте ранее значение Джеффриса для параметра масштаба, который задается как . Это может быть создано как пределплотностиBeta2, таккак оба его параметра сходятся к нулю. Для приближения вы можете использовать небольшие значения. Но я бы попытался выработать решениеаналитически,если это вообще возможно (и если не полное аналитическое решение, получить аналитическое решение настолько далеко, насколько это возможно), потому что вы не только сэкономите себе некоторое вычислительное время, но вы Также, вероятно,лучше понять,что происходит в вашей модели.p(σ)∝1σ
Другой альтернативой является указание вашей предыдущей информации в виде ограничений (среднее значение равно , дисперсия равно V , IQR равно I Q R и т. Д. Со значениями M , V , I Q R, указанными вами самостоятельно), и затем используйте максимальное распределение энтропии (найдите любую работу Эдвина Джейнса или Ларри Бретторста, чтобы найти хорошее объяснение того, что такое максимальная энтропия и чем она не является) относительно «инвариантной меры» Джеффриса m ( σ ) = 1M V IQR M,V,IQR . m(σ)=1σ
MaxEnt - это версия Rolls Royce, в то время как Beta 2 - скорее версия седана. Причина этого заключается в том, что распределение MaxEnt «предполагает наименьшее» в зависимости от ограничений, которые вы на него наложили (например, отсутствие ограничений означает, что вы просто получите Jeffreys ранее), тогда как дистрибутив Beta 2 может содержать некоторые «скрытые» функции, которые может или не может быть желательным в вашем конкретном случае (например, если предыдущая информация является более надежной, чем данные, то бета-версия 2 является плохой).
Другим приятным свойством распределения MaxEnt является то, что если в механизме генерации данных не действуют неопределенные ограничения, то распределение MaxEnt в подавляющем большинстве случаев является наиболее вероятным распределением, которое вы увидите (мы говорим о вероятностях, превышающих миллиарды и триллионы к одному). Следовательно, если распределение, которое вы видите, не является MaxEnt, то, скорее всего, существуют дополнительные ограничения, которые вы не указали, действующие для истинного процесса, и наблюдаемые значения могут дать представление о том, каким может быть это ограничение.
источник
Следующая статья Дэниелса сравнивает различные усадки априорных значений для дисперсии. Это правильные приоры, но я не уверен, сколько из них можно назвать неинформативными, если таковые имеются. Но он также предоставляет список неинформативных априорных значений (не все правильные). Ниже ссылка.
Приоры
Еще одна более свежая статья в родственной теме заключается в следующем.
источник
(Вопрос устарел, но проблема не в этом)
Лично я думаю, что ваша интуиция имеет какой-то смысл. То есть, если вам не нужна математическая чистота сопряженности, то какое бы распределение вы ни использовали для параметра местоположения, вы должны использовать то же самое для журнала параметра масштаба. Итак, вы говорите: используйте эквивалент обычного априора.
Вы действительно использовали бы обычный априор для параметра местоположения? Большинство людей сказали бы, что, если вы не сделаете дисперсию огромной, это, вероятно, немного «слишком догматично», по причинам, объясненным в других ответах здесь (неограниченное влияние). Исключением будет, если вы делаете эмпирический байес; то есть, используя ваши данные для оценки параметров вашего предыдущего.
Если вы хотите быть «слабоинформативным», вы, вероятно, выбрали бы распределение с более толстыми хвостами; очевидными кандидатами являются t распределений. Последний совет Гельмана, по- видимому, заключается в использовании с df 3-7. (Обратите внимание, что ссылка также поддерживает мое предложение о том, что вы хотите сделать то же самое для журнала масштаба, что вы сделали бы для местоположения). Таким образом, вместо lognormal вы можете использовать log-student-t. Для этого в stan вы можете сделать что-то вроде:
Тем не менее, я думаю, что если приведенный выше код слишком сложен для вас, вы, вероятно, можете избежать логарифмического априора с двумя оговорками. Во-первых, сделайте дисперсию этого предшествующего в несколько раз шире, чем ваше грубое предположение о том, насколько «вы не уверены»; Вы хотите слабо информативный априор, а не сильно информативный. И, во-вторых, как только вы подгоняете свою модель, проверьте заднюю медиану параметра и убедитесь, что ее журнал не слишком далеко от центра логнормального значения. «Не слишком далеко», вероятно, означает: менее двух стандартных отклонений и, предпочтительно, не более одного стандартного отклонения.
источник
Для параметров масштаба иерархической модели я в основном использовал предложение Эндрю Гелмана об использовании сложенного нецентрального t-распределения. Это сработало довольно прилично для меня.
источник