Сглаживание лапласа и дирихле приора

11

В статье Википедии о сглаживании Лапласа (или аддитивном сглаживании) сказано, что с байесовской точки зрения

это соответствует ожидаемому значению апостериорного распределения с использованием симметричного распределения Дирихле с параметром в качестве предшествующего значения.α

Я озадачен тем, как это на самом деле правда. Может ли кто-нибудь помочь мне понять, как эти две вещи эквивалентны?

Благодаря!

DanielX2010
источник

Ответы:

10

Конечно. По сути, это наблюдение того, что распределение Дирихле является сопряженным предшествующим для многочленного распределения. Это означает, что они имеют одинаковую функциональную форму. В статье упоминается об этом, но я просто подчеркну, что это следует из модели полиномиальной выборки. Итак, приступим к этому ...

Наблюдение касается апостериорного положения, поэтому давайте введем некоторые данные , которые представляют собой число различных элементов. Мы наблюдаем выборок всего. Предположим, что взят из неизвестного дистрибутива (в который мы поместим перед -симплексом).K N = K i = 1 x i x π D i r ( α ) KxKN=i=1KxixπDir(α)K

Задняя вероятность заданного и данных равнаα xπαx

p(π|x,α)=p(x|π)p(π|α)

Вероятность, , является полиномиальным распределением. Теперь давайте выпишем PDF:p(x|π)

p(x|π)=N!x1!xk!π1x1πkxk

и

p(π|α)=1B(α)i=1Kπiα1

где . Умножая, мы находим это,B(α)=Γ(α)KΓ(Kα)

p(π|α,x)=p(x|π)p(π|α)i=1Kπixi+α1.

Другими словами, задняя часть также является Dirichlet. Вопрос был о среднем значении. Поскольку задним является Дирихле, мы можем применить формулу для среднего Дирихле, чтобы найти это,

E[πi|α,x]=xi+αN+Kα.

Надеюсь это поможет!

Ага
источник
p(π|α,x)=p(x|π)p(π|α)/p(x|α), так что не стоит ли говорить, чтоОни пропорциональны по отношению к , но я думаю, что написание равенства неверно. p(π|α,x)=p(x|π)p(π|α)?π
Михал
Я был смущен этим в течение долгого времени, и я хочу поделиться своим пониманием. Эти люди, мотивирующие сглаживание Лапласа Дирихле, используют апостериорное среднее, а не MAP. Для простоты предположим, что бета-распределение (простейший случай Дирихле) имеет среднее значение тогда как MAP равен . Поэтому, если кто-то говорит, что соответствует добавлению 1 к числителю и 2 к знаменателю, то это потому, что они используют апостериорное среднее. α+nsuccessα+β+nsuccess+nfailuresα+nsuccess1α+β+nsuccess+nfailures2α=β=1
RMurphy
0

Как примечание, я также хотел бы добавить еще один пункт к вышеупомянутому выводу, который на самом деле не касается основного вопроса. Однако, говоря о априорных значениях Дирихле по многочленовому распределению, я подумал, что стоит упомянуть, что будет формой функции правдоподобия, если мы собираемся принять вероятности в качестве переменных неприятности.

Как правильно указал sydeulissie, пропорционально . Теперь здесь я хотел бы вычислить .p(π|α,x)i=1Kπixi+α1p(x|α)

p(x|α)=i=1Kp(x|πi,α)p(π|α)dπ1dπ2...dπK

Используя интегральное тождество для гамма-функций, мы имеем:

p(x|α)=Γ(Kα)Γ(N+Kα)i=1KΓ(xi+α)Γ(α)

Приведенный выше вывод вероятности для категориальных данных предлагает более надежный способ работы с этими данными для случаев, когда размер выборки не настолько велик.N

omidi
источник