В чем разница в байесовской оценке и оценке максимального правдоподобия?

50

Пожалуйста, объясните мне разницу в байесовской оценке и оценке максимального правдоподобия?

Triomphe
источник
7
Зависит от вида байесовской оценки. КАРТА? Заднее среднее? Результат минимизации байесовского риска для некоторой функции потерь? Каждый из вышеперечисленных? Что-то другое?
Glen_b
2
Я ответил на этот вопрос или аналог, здесь. stats.stackexchange.com/questions/73439/… Какие проблемы у вас возникают, понимая оба? Более подробная информация поможет нам дать лучший ответ.
Восстановите Монику
1
Из справочного руководства STAN: «Если априор является однородным, апостериорный режим соответствует оценке максимального правдоподобия (MLE) параметров. Если априор не является равномерным, апостериорный режим иногда называют максимальной апостериорной оценкой (MAP). "
Neerav
@Neerav это ответ, который мне нужен. ТНХ
javadba
Возможно, полезный ответ для частного случая апостериорной оценки байесовского максимума приведен здесь .
pglpm

Ответы:

68

Это очень широкий вопрос, и мой ответ здесь только начинает немного царапать поверхность. Я буду использовать правило Байеса, чтобы объяснить концепции.

Давайте предположим , что набор параметров распределения вероятностей, & , лучше всего объясняет набор данных D . Мы можем оценить параметры θ с помощью правила Байеса:θDθ

p(θ|D)=p(D|θ)p(θ)p(D)

posterior=likelihoodpriorevidence

Ниже приведены объяснения:

Оценка максимального правдоподобия

θp(D|θ)θ^θ^

p(θ)p(D)p(θ)θ

Байесовская оценка

p(θ|D)θ

θp(θ|D)θθθ

evidence

p(D)=θp(D|θ)p(θ)dθ

Это приводит к концепции «сопряженных априоров» в байесовской оценке. Для данной функции правдоподобия, если у нас есть выбор относительно того, как мы выражаем наши предыдущие убеждения, мы должны использовать эту форму, которая позволяет нам выполнять интеграцию, показанную выше. Идея сопряженных априорных значений и их практическая реализация довольно хорошо объяснены в этой статье COOlSerdash.

Zhubarb
источник
1
Не могли бы вы подробнее рассказать об этом? : «знаменатель в правиле Байеса, то есть доказательства».
Даниил
1
Я расширил свой ответ.
Жубарб
@ Беркан в уравнении здесь, P (D | тета) является вероятностью. Однако функция правдоподобия определяется как P (тета | D), то есть функция параметра, заданного данными. Я всегда смущен этим. Термин «вероятность» относится к разным вещам здесь? Не могли бы вы уточнить это? Большое спасибо!
Zesla
1
@zesla, если я правильно понимаю, P (theta | D) - это не вероятность, а апостериор. То есть распределение тэты зависит от источника данных, из которого вы имеете выборки. Вероятность, как вы сказали: P (D | theta) - распределение ваших данных, параметризованное тэтой, или, возможно, более интуитивно, «вероятность увидеть то, что вы видите» как функцию тэты. Имеет ли это смысл? Все остальные: поправьте меня, где я не прав.
грисаит
@zesla, объяснение, данное grisaitis, верно.
Жубарб
13

Я думаю, что вы говорите об оценке точек как в параметрическом выводе, так что мы можем принять параметрическую вероятностную модель для механизма генерации данных, но фактическое значение параметра неизвестно.

Оценка максимального правдоподобия относится к использованию модели вероятности для данных и оптимизации совместной функции правдоподобия наблюдаемых данных по одному или нескольким параметрам. Поэтому видно, что оценочные параметры наиболее соответствуют наблюдаемым данным относительно любого другого параметра в пространстве параметров. Обратите внимание, что такие функции правдоподобия не обязательно рассматриваются как «условные» для параметров, так как параметры не являются случайными переменными, поэтому несколько сложнее представить себе вероятность различных результатов, сравнивающих две разные параметризации. Оказывается, это философски обоснованный подход.

Байесовская оценка немного более общая, потому что мы не обязательно максимизируем байесовский аналог вероятности (апостериорная плотность). Однако аналогичный тип оценки (или апостериорная оценка моды) рассматривается как максимизация вероятности апостериорного параметра, зависящего от данных. Обычно оценки Байеса, полученные таким образом, ведут себя почти точно так же, как и оценки ML. Ключевым отличием является то, что байесовский вывод позволяет явным методом включить предшествующую информацию.

Кроме того, «Эпическая история максимального правдоподобия делает для читающего освещения

http://arxiv.org/pdf/0804.2996.pdf

Adamo
источник
Не могли бы вы подробнее рассказать об этом? «Тем не менее, аналогичный тип оценки (или апостериорная оценка моды) рассматривается как максимизация вероятности апостериорного параметра, зависящего от данных».
Даниил
Задний режим немного неправильный, потому что при непрерывных DF значение хорошо определено. Задние плотности связаны с вероятностью в частом случае, за исключением того, что это позволяет моделировать параметры из задней плотности. Интересно, что наиболее интуитивно считается, что «апостериорное среднее» является наилучшей точечной оценкой параметра. Этот подход часто используется, и для симметричных унимодальных плотностей это дает действительные достоверные интервалы, которые согласуются с ML. Задняя мода - это просто значение параметра на вершине задней плотности.
AdamO
О том, что «это приводит к достоверным интервалам, которые соответствуют ML.»: Это действительно зависит от модели, верно? Они могут быть последовательными или нет ...
Даниил
1
Проблема , лежащий в основе параметрических допущений мотивирует обсуждение полностью параметрические против полупараметрических или не -параметрических умозаключений. Это не проблема ML против Байеса, и вы не первый, кто совершил эту ошибку. ML - полностью параметрический подход, он позволяет вам оценивать некоторые вещи, которые SP или NP не могут (и часто более эффективно, когда они могут). Правильное указание вероятностной модели в ML аналогично выбору правильного априора и всех свойств устойчивости (и проблем чувствительности), которые на это указывают.
AdamO
Кстати, ваши комментарии зажгли этот вопрос в моей голове. Есть комментарии по этому поводу? stats.stackexchange.com/questions/74164/…
Даниил
2

Байесовская оценка - это байесовский умозаключение, в то время как MLE - это один из методов частичного вывода.

f(x1,...,xn;θ)=f(θ;x1,...,xn)f(x1,...,xn)f(θ)likelihood=posteriorevidencepriorp(θ)=1/6

Альтернатива MLE в байесовском выводе называется максимальной апостериорной оценкой (для краткости MAP), и на самом деле MLE - это особый случай MAP, где априор одинаков, как мы видим выше и как указано в Википедии :

С точки зрения байесовского вывода MLE является частным случаем максимальной апостериорной оценки (MAP), которая предполагает равномерное предварительное распределение параметров.

За подробностями обращайтесь к этой замечательной статье: MLE против MAP: связь между максимальным правдоподобием и максимальной апостериорной оценкой .

И еще одно отличие состоит в том, что максимальная вероятность подвержена переоснащению, но если вы применяете байесовский подход, проблемы переопределения можно избежать.

Лернер Чжан
источник
1
Одна из замечательных особенностей Байеса заключается в том, что вы не обязаны вообще рассчитывать точечные оценки. Вся задняя плотность может быть вашей «оценкой».
Фрэнк Харрелл
@FrankHarrell Уважаемый профессор Харрелл, не могли бы вы помочь мне отредактировать ответ, если я где-то допустил какие-то ужасные ошибки? Большое спасибо!
Лернер Чжан
1
Я не хотел сказать, что ты допустил ошибку.
Фрэнк Харрелл
@lerner: Я хочу предостеречь от определения оценки максимального правдоподобия как частного случая оценки максимального а-апостериорного (когда приоритет постоянен): посмотрите, почему в этом ответе .
pglpm