Должен ли байесовский апостериор иметь правильное распределение?

21

Я знаю, что априорные значения не обязательно должны быть правильными и что функция правдоподобия также не интегрируется с 1. Но должен ли апостериор быть правильным распределением? Каковы последствия, если это / нет?

ATJ
источник

Ответы:

15

(Несколько удивительно читать предыдущие ответы, которые фокусируются на потенциальной неправильности апостериорного, когда предшествующий является правильным, поскольку, насколько я могу судить, вопрос в том, должен ли апостериор быть правильным ( т. е. интегрируемо в единицу) быть надлежащим (т. е. приемлемым для байесовского вывода) апостериорным.)

В статистике Байесовской, заднее распределение имеет быть распределение вероятностей, из которого можно вывести такие моменты задней средней Eπ[h(θ)|x] и вероятностные утверждения, такие как покрытие вероятного региона, P(π(θ|x)>κ|x) . Если заднийπ ( θ | x )

f(x|θ)π(θ)dθ=+,(1)
π(θ|x)не может быть нормализовано в плотность вероятности, и байесовский вывод просто не может быть проведен. Задний просто не существует в таких случаях.

На самом деле, (1) должно выполняться для всех в пространстве выборки, а не только для наблюдаемого , иначе выбор предыдущего будет зависеть от данных . Это означает, что априоры, такие как априор Холдейна, , для вероятности биномиальной или отрицательной биномиальной переменной X не могут использоваться, поскольку апостериор не является определено для х = 0 .x xp X x = 0π(p){1/p(1p)}pXx=0

Я знаю одно исключение, когда можно рассматривать «неправильных постеров»: оно найдено в «Искусстве увеличения данных» Дэвида ван Дейка и Сяо-Ли Мена. Неправильная мера находится над так называемым рабочим параметром , так что наблюдение производится маргиналом расширенного распределения а Ван Дайк и Мэн задают неправильный предшествующий для этого рабочего параметра чтобы ускорить моделирование (которое остается четко определенным как плотность вероятности) MCMC.f ( x | θ ) = T ( x aug ) = x f ( x aug | θ , α )α p ( α ) α π ( θ | x )

f(x|θ)=T(xaug)=xf(xaug|θ,α)dxaug
p(α)απ(θ|x)

С другой стороны, в некоторой степени связанный с ответом eretmochelys , а именно с точки зрения байесовской теории принятия решений , установка, в которой (1) происходит, все еще может быть приемлемой, если она приводит к оптимальным решениям. А именно, если - это функция потерь, оценивающая влияние использования решения , оптимальное байесовское решение при предшествующем задается как и все, что имеет значение, это то, что этот интеграл не везде (в ) бесконечен. Является ли (1) верным для полученияL(δ,θ)0δπ

δ(x)=argminδL(δ,θ)f(x|θ)π(θ)dθ
δδ(x)даже если такие свойства, как допустимость, гарантируются только при выполнении (1).
Сиань
источник
19

Заднее распределение не обязательно должно быть правильным, даже если предшествующее является правильным. Например, предположим, что имеет гамма-априор с формой 0.25 (что является правильным), и мы моделируем нашу точку отсчета как полученную из гауссовского распределения со средним нулем и дисперсией . Предположим, что наблюдается равным нулю. Тогда вероятность пропорциональна , что делает апостериорное распределение для несоответствующим, поскольку оно пропорционально . Эта проблема возникает из-за дурацкой природы непрерывных переменных.vxvxp(x|v)v0.5vv1.25ev

Том Минка
источник
Классный пример, Том!
Дзен
+1, хотя не могли бы вы расширить ответ на последнее предложение ОП? Является ли этот дурацкий апостериорный смысл (вы можете делать то, что вы обычно делаете с апостериорным), или это больше похоже на получение NaN или Inf из некоторых расчетов? Это признак того, что с вашей моделью что-то не так?
Уэйн
5
Там нет ничего плохого с моделью. Этот апостериор имеет смысл в том смысле, что если вы получите другое наблюдение, вы можете умножить его и, возможно, вернуться к правильному апостериору. Так что это не похоже на NaN, на котором все дальнейшие операции являются NaN.
Том Минка
8
Хотя это, вероятно, слишком поздно, чтобы иметь значение, я не думаю, что использование таких «контрпримеров» поможет новичкам: проблема возникает из-за того, что вы используете конкретную версию гауссовой плотности при , когда она может быть произвольно определена на этом наборе меры ноль. И, следовательно, сделать заднюю правильную или неправильную в зависимости от выбранной версии. x=0
Сиань
Интересно - если вы берете общий , то апостериорный является обобщенным обратным гауссианом с параметрами . @ Сиань - было бы неплохо увидеть альтернативный способ получить правильную апостериорную сторону. - 0,25 , 1 , х 2x0.25,1,x2
probislogic
11

Определение набора мы имеем P r ( X фиктивные данные ) = фиктивные данные f ( x θ )

Bogus Data={x:f(xθ)π(θ)dθ=},
Последний интеграл будет равен ∞, если мера Лебега фиктивных данных положительна. Но это невозможно, потому что этот интеграл дает вам вероятность (действительное число от 0 до 1 ). Отсюда следует, что мера Лебега фиктивных данных равна 0 , и, разумеется, также следует, что P r ( X Bogus Data ) = 0 .
Pr(XBogus Data)=Bogus Dataf(xθ)π(θ)dθdx=Bogus Datadx.
Bogus Data01Bogus Data0Pr(XBogus Data)=0

На словах: вероятность предшествующего прогнозирования тех значений выборки, которые делают апостериорный неправильный, равна нулю.

Мораль истории: остерегайтесь нулевых множеств, они могут кусаться, как бы невероятно это ни было.

PS Как отметил профессор Роберт в комментариях, это рассуждение разрушается, если предшествующее является неправильным.

Zen
источник
4
Вы однажды написали : «Если мы сможем начать с правильного априора и получить неправильный апостериор, то я оставлю вывод».
Том Минка
2
Немного в щеке, был неявный квантификатор: если мы можем начать с правильного априора и получить неправильный апостериор для каждого возможного значения выборки, то я оставлю вывод. ;-)
Zen
Кстати, замечательная память, Том!
Дзен
4
Pr(XBogus Data)(θ,x)
1
Ты прав. Рассуждение в ответе работает только с правильными приоры. Хорошая точка зрения. Я добавлю заметку.
Дзен
3

Любое «распределение» должно суммироваться (или интегрироваться) в 1. Я могу привести несколько примеров, когда можно работать с ненормализованными дистрибутивами, но мне неудобно когда-либо называть что-либо, что ограничивает что-либо, кроме 1, «распределением».

xd

x^=argmaxxPX|D(x|d)=argmaxxPD|X(d|x)PX(x)PD(d)=argmaxxPD|X(d|x)PX(x)

PDxx^PD|X(d|x)PX(x)

Eretmochelys
источник
@ Дзен, не могли бы вы быть более откровенным в том, что, по вашему мнению, неправильно (или принципиально неполно) в этом ответе?
whuber
1
Один из способов интерпретации OP-вопроса: «Должно ли заднее быть правильным распределением?» это спросить, если математически возможно начать с надлежащего априорного и закончить с неправильным задним. Ответ Минки дает явный пример, в котором это происходит. Я попытался дополнить его своим ответом и указать, что это может произойти только внутри набора с нулевой предиктивной вероятностью.
Дзен
1
@ Zen Мне кажется, что тесно связанная интерпретация гласит: «Если апостериор неправильный, какую информацию я могу получить от него?» Этот принятый ответ выглядит так, как будто он дает полезный и правильный совет, связанный с этим в особых обстоятельствах (которые четко описаны). Принятие выглядит для меня как сигнал, что eretmochelys ударил домой с проницательным предположением об обстоятельствах.
whuber
-2

NBeta(0,0)

omidi
источник
3
Этот ответ неверен. Смотри мой ответ.
Том Минка