Пример максимальной апостериорной оценки

11

Я читал об оценке максимального правдоподобия и максимальной апостериорной оценке, и до сих пор я встречал конкретные примеры только с оценкой максимального правдоподобия. Я нашел несколько абстрактных примеров максимальной апостериорной оценки, но пока ничего конкретного с числами на ней: S

Это может быть очень сложно, работать только с абстрактными переменными и функциями, и чтобы не утонуть в этой абстрактности, приятно время от времени связывать вещи с реальным миром. Но, конечно, это только мое (и некоторые другие народы) наблюдение :)

Поэтому, может ли кто-нибудь дать мне простой, но конкретный пример оценки Maximum A Posteriori с числами на ней? Это очень помогло бы :)

Спасибо!

Я первоначально разместил этот вопрос на MSE, но не смог получить ответ там:

/math/449386/example-of-maximum-a-posteriori-estimation

Я следовал инструкциям, приведенным здесь для перекрестной публикации:

http://meta.math.stackexchange.com/questions/5028/how-do-i-move-a-post-to-another-forum-like-cv-stats

jjepsuomi
источник

Ответы:

6

1-й пример

Типичный случай - тегирование в контексте обработки естественного языка. Смотрите здесь для подробного объяснения. Идея в основном заключается в том, чтобы иметь возможность определять лексическую категорию слова в предложении (это существительное, прилагательное, ...). Основная идея заключается в том, что у вас есть модель вашего языка, состоящая из скрытой марковской модели ( HMM ). В этой модели скрытые состояния соответствуют лексическим категориям, а наблюдаемые состояния - фактическим словам.

Соответствующая графическая модель имеет вид,

графическая модель канонического HMM

y=(y1,...,yN)x=(x1,...,xN)

После обучения цель состоит в том, чтобы найти правильную последовательность лексических категорий, которые соответствуют заданному входному предложению. Это формулируется как поиск последовательности тегов, которые наиболее совместимы / наиболее вероятно были сгенерированы языковой моделью, т.е.

f(y)=argmaxxYp(x)p(y|x)

2-й пример

На самом деле, лучшим примером будет регрессия. Не только потому, что это легче понять, но и потому, что ясно показывает разницу между максимальной вероятностью (ML) и максимальной апостериорией (MAP).

t

y(x;w)=iwiϕi(x)
ϕ(x)w

t=y(x;w)+ϵ

p(t|w)=N(t|y(x;w))

E(w)=12n(tnwTϕ(xn))2

что дает хорошо известное решение наименьших квадратов. Теперь ML чувствителен к шуму и при определенных обстоятельствах нестабилен. MAP позволяет подбирать более эффективные решения, накладывая ограничения на весовые коэффициенты. Например, типичным случаем является регрессия гребня, когда требуется, чтобы веса имели как можно меньшую норму,

E(w)=12n(tnwTϕ(xn))2+λkwk2

N(w|0,λ1I)

w=argminwp(w;λ)p(t|w;ϕ)

Обратите внимание, что в MAP весами являются не параметры, как в ML, а случайные величины. Тем не менее, как ML, так и MAP являются точечными оценщиками (они возвращают оптимальный набор весов, а не распределение оптимальных весов).

jpmuc
источник
+1 Привет, @juampa, спасибо за ответ :) Но я все еще ищу более конкретный пример :)
jjepsuomi
w
1
O(n3)
f(y)=argmaxxXp(x)p(y|x)