Сравнение оценки максимального правдоподобия (MLE) и теоремы Байеса

12

В теореме Байеса , а из книги, которую я читаю, называется вероятность , но я предполагаю , что это всего лишь условная вероятность от дается , не так ли? p(x|y)

п(Y|Икс)знак равноп(Икс|Y)п(Y)п(Икс)
п(Икс|Y)уИксY

Оценка максимального правдоподобия пытается максимизировать , верно? Если это так, я сильно запутался, потому что обе случайные величины, верно? Для максимального только выяснить , в ? Еще одна проблема, если эти 2 случайные величины независимы, то это просто , верно? Тогда максимизация означает максимизацию .х , у р ( х | у )п(Икс|Y)Икс,Yп(Икс|Y) р(х|у)р(х)р(х|у)р(х)Y^п(Икс|Y)п(Икс)п(Икс|Y)п(Икс)

Или, может быть, п(Икс|Y) является функцией некоторых параметров θ , то есть п(Икс|Y;θ) , и MLE пытается найти θ которая может максимизировать п(Икс|Y) ? Или даже , что Y на самом деле параметры модели, а не случайной величины, максимизируя вероятность, чтобы найти у ?Y^

ОБНОВИТЬ

Я новичок в машинном обучении, и эта проблема - путаница из материала, который я прочитал из учебника по машинному обучению. Здесь, учитывая наблюдаемый набор данных {Икс1,Икс2,,,,,ИксN} , целевыми значениями являются , и я пытаюсь подогнать модель по этому набору данных, поэтому я предполагаю, что, учитывая , имеет форму распределения с именем параметризованный , то есть , и я предполагаю, что это апостериорная вероятность , верно?x y W θ p ( y | x ; θ ){Y1,Y2,,,,,YN}ИксYWθп(Y|Икс;θ)

Теперь, чтобы оценить значение , я использую MLE. Хорошо, вот моя проблема, я думаю, что вероятность , верно? Максимизация вероятности означает, что я должен выбрать правильные и ?p ( x | y ; θ )θп(Икс|Y;θ)yθY

Если мое понимание вероятности неверно, пожалуйста, покажите мне правильный путь.

авокадо
источник
Я думаю, что путаница заключается в следующем: теорема Байеса - это просто манипулирование условными вероятностями, которые вы даете в начале своего вопроса. Байесовская оценка использует теорему Байеса , чтобы сделать оценки параметров. Только в последнем случае в игру вступают оценка максимального правдоподобия (MLE), параметр тета и т. Д.
Жубарб
@Berkan, ну, на самом деле я пытаюсь выяснить, какова вероятность, учитывая . Икс,Y,θ
авокадо
1
Я вижу, я бы порекомендовал вам взглянуть на этот большой набор вводных слайдов лекций в оценке параметров.
Жубарб
1
Еще одна замечательная тема для чтения - «Эмпирические байесовские оценки». Мы только что узнали о них в моем классе :) biostat.jhsph.edu/~fdominic/teaching/bio656/labs/labs09/…
bdeonovic,

Ответы:

16

Я думаю, что основное недоразумение проистекает из вопросов, которые вы задаете в первой половине вашего вопроса. Я отношусь к этому ответу как к контрасту MLE и байесовской логической логики. Очень доступное обсуждение MLE можно найти в главе 1 Гэри Кинга « Объединяющая политическая методология». Байесовский анализ данных Гельмана может предоставить подробную информацию о байесовской стороне.

В теореме Байеса и из книги, которую я читаю,p(x|y)называется вероятностью, но я предполагаю, что это просто условная вероятностьx,заданнаяy, верно?

п(Y|Икс)знак равноп(Икс|Y)п(Y)п(Икс)
п(Икс|Y)ИксY

Вероятность - это условная вероятность. Для байесовской формулы эта формула описывает распределение параметра учетом данных x и предшествующего значения p ( y ) . Но поскольку эти обозначения не отражают ваше намерение, впредь я буду использовать ( θ , y ) для параметров и x для ваших данных.YИксп(Y)θYИкс

Но ваше обновление указывает, что наблюдаются из некоторого распределения p ( x | θ , y ) . Если мы разместим наши данные и параметры в соответствующих местах в правиле Байеса, мы обнаружим, что эти дополнительные параметры не создают проблем для байесовских уравнений: p ( θ | x , y ) = p ( x , y | θ ) p ( θ )Иксп(Икс|θ,Y)

п(θ|Икс,Y)знак равноп(Икс,Y|θ)п(θ)п(Икс,Y)

Я верю, что это выражение - то, что вам нужно в вашем обновлении.

Оценка максимального правдоподобия пытается максимизировать , верно?п(Икс,Y|θ)

Да. MLE утверждает, что то есть обрабатывает член p ( θ , y )

п(Икс,Y|θ)αп(θ|Икс,Y)
как неизвестная (и непознаваемая) константа. Напротив, в байесовском умозаключенииp(x)рассматриваетсякак нормализующая константа (так что вероятности суммируются / интегрируются в единицу), аp(θ,y) -как ключевой элемент информации: предыдущая. Мы можем думать оp(θ,y)как о способе наложения штрафа на процедуру оптимизации за «слишком большое отклонение» от региона, который мы считаем наиболее вероятным.п(θ,Y)п(Икс)п(Икс)п(θ,Y)п(θ,Y)

Если это так, я сильно запутался, потому что - случайные переменные, верно? Для максимального р ( х , у | & thetas ; ) просто выяснить & thetas ?Икс,Y,θп(Икс,Y|θ)θ^

В предполагается быть фиксированной величиной, неизвестно , но в состоянии сделать вывод, не является случайной величиной. Байесовский вывод рассматривает θ как случайную величину. Функции плотности байесовской логический вывод ставит вероятность в и получают функцию плотности вероятности из , а не точечного резюме модели, как и в ОМПЕ. То есть, байесовский вывод рассматривает полный диапазон значений параметров и вероятность каждого из них. MLE утверждает , что θ является адекватной сводкой данных , приведенных в модель.θ^θθ^

Sycorax говорит восстановить Монику
источник
1
Спасибо за ваш ответ, я обновляю свой пост, пожалуйста, смотрите мое обновление.
авокадо
Это обновление в корне изменило мое понимание вопроса. Сначала я думал, что вы рассматриваете как параметр и x как ваши данные. Теперь кажется, что ( x , y ) являются данными, и вы заинтересованы в построении модели, которая описывает отношения между x и y . Я изменю свой ответ, как у меня есть время. YИкс(Икс,Y)ИксY
Sycorax говорит восстановить Monica
+1 Это по-прежнему отличный ответ: я надеюсь, что вы сохраните его практически без изменений, даже если вы измените его, чтобы соответствовать изменениям в вопросе.
whuber
Я обновил свой ответ, чтобы отразить ваш обновленный вопрос. Я надеюсь, что эти детали помогут. Я действительно рекомендую ссылаться на ссылки, которые я упоминаю. И я надеюсь, что @whuber все еще одобряет. ;-)
Sycorax говорит восстановить Monica
Большое спасибо за обновление, так что вы имеете в виду, что, хотя я выбираю форму распределения для , я должен относиться к x , y как к наблюдаемым данным, когда пытаюсь оценить θ ? p(y|x)x,yθ
авокадо
3

Обычно является функцией параметра y . Рассмотрим следующую переформулировку теоремы Байеса:p(x|y)y

п(θ|Икс)знак равноп(Икс|θ)п(θ)п(Икс)

Или даже более явно (в отношении понятия вероятности):

п(θ|Икс)знак равноL(θ;Икс)п(θ)п(Икс)

Для конкретного примера рассмотрим модель

Икс|θ~ВяNомяaL(θ)θ~ВеTa(α,β)
Дэвид Маркс
источник
YИкс
Y обычно является параметром в PDF-файле X. В настройке для часто используемых пользователей y обычно является фиксированным значением. В байесовской системе Y само является случайной величиной (как в примере, который я привел). X | Y также может быть условной вероятностью в том смысле, в каком вы имеете в виду, я пытался дать вам мотивацию, почему эта величина называется вероятностью.
Дэвид Маркс
θИкс
То, что что-то является случайной переменной, не означает, что она не может быть параметром. Добро пожаловать в удивительный мир байесовской вероятности :)
Дэвид Маркс
0
  • п(Икс|Y)

п(Икс|Y)ИксY

  • п(Икс|Y)п(Икс)п(Икс|Y)п(Икс)

п(Икс|Y)знак равноп(Икс)п(Икс)YY

  • п(Икс|Y)θп(Икс|Y;θ)θп(Икс|Y)Y^

θYп(Икс|Y;θ)θ

похлопывание
источник
θИксYθ
0

Из справочного руководства STAN:

Если предшествующее является однородным, задний режим соответствует оценке максимального правдоподобия (MLE) параметров. Если предшествующее значение не является однородным, задний режим иногда называют максимальной апостериорной (MAP) оценкой.

Neerav
источник