Есть ли разница между частотой и байесовской оценкой правдоподобия?

21

Некоторые источники говорят, что функция правдоподобия не является условной вероятностью, некоторые говорят, что это так. Это очень смущает меня.

Согласно большинству источников, которые я видел, вероятность распределения с параметром должна быть произведением функции вероятности массы, учитывая выборок :θx inxi

L(θ)=L(x1,x2,...,xn;θ)=i=1np(xi;θ)

Например, в логистической регрессии мы используем алгоритм оптимизации, чтобы максимизировать функцию правдоподобия (максимальная оценка правдоподобия), чтобы получить оптимальные параметры и, следовательно, окончательную модель LR. Учитывая обучающих выборок, которые мы предполагаем независимыми друг от друга, мы хотим максимизировать произведение вероятностей (или совместных функций вероятности). Это кажется совершенно очевидным для меня.n

Согласно соотношению: вероятность, условная вероятность и частота отказов , «вероятность не является вероятностью и не является условной вероятностью». Также упоминалось, что «правдоподобие является условной вероятностью только в байесовском понимании правдоподобия, т. Е. Если вы предполагаете, что является случайной величиной».θ

Я читал о различных перспективах решения проблемы обучения между частыми и байесовскими.

Согласно источнику, для байесовского вывода у нас есть априори , вероятность , и мы хотим получить апостериорный , используя байесовскую теорему:P ( X | θ ) P ( θ | X )P(θ)P(X|θ)P(θ|X)

P(θ|X)=P(X|θ)×P(θ)P(X)

Я не знаком с байесовским выводом. Почему которое является распределением наблюдаемых данных, зависящим от его параметров, также называют вероятностью? В Википедии говорится, что иногда пишется . Что это значит?P(X|θ)L(θ|X)=p(X|θ)

Есть ли разница между частотным и байесовским определениями вероятности ??

Благодарю.


РЕДАКТИРОВАТЬ:

Существуют разные способы интерпретации теоремы Байеса - байесовской интерпретации и интерпретации Frequentist (см .: Теорема Байеса - Википедия ).

Тайлер 傲 来 国 主
источник
2
Два ключевых свойства вероятности состоят в том, что (а) он является функцией для конкретного а не наоборот, и (б) он может быть известен только до положительной константы пропорциональности. Это не вероятность (условная или иная), потому что ей не нужно суммировать или интегрировать в за все времяX 1 θθX1θ
Генри

Ответы:

24

В определении нет разницы - в обоих случаях функция правдоподобия - это любая функция параметра, пропорциональная плотности выборки. Строго говоря, мы не требуем, чтобы вероятность была равна плотности выборки; он должен быть только пропорциональным, что позволяет удалять мультипликативные части, которые не зависят от параметров.

В то время как плотность выборки интерпретируется как функция данных, зависящая от заданного значения параметра, функция правдоподобия интерпретируется как функция параметра для фиксированного вектора данных. Итак, в стандартном случае данных IID у вас есть:

Lx(θ)i=1np(xi|θ).

В байесовской статистике мы обычно выражаем теорему Байеса в ее простейшей форме как:

π(θ|x)π(θ)Lx(θ).

Это выражение для теоремы Байеса подчеркивает, что оба его мультипликативных элемента являются функциями параметра, который представляет интерес для апостериорной плотности. (Этот результат соразмерности полностью определяет правило, поскольку апостериор является плотностью, и поэтому существует уникальная константа умножения, которая позволяет интегрировать его в единицу.) Как вы указали в своем обновлении, философия байесовской и частой философии имеет разные интерпретирующие структуры. В рамках парадигмы, основанной на частоте, этот параметр обычно рассматривается как «фиксированная константа», и поэтому он не приписывается вероятностному показателю. Поэтому часто отклоняют приписывание параметру априорного или последующего распределения (для более подробного обсуждения этих философских и интерпретативных различий см., Например, O'Neill 2009 ).

Восстановить Монику
источник
14

Функция правдоподобия определяется независимо друг от или до статистической парадигмы, которая используется для вывода, как функция, (или ), параметра , функции что зависит от или индексируется смотровой (с) для этого вывода. А также неявно в зависимости от семейства вероятностных моделей, выбранных для представления изменчивости или случайности в данных. Для данного значения пары значение этой функции точно совпадает со значением плотности модели вL ( θ ; x ) L ( θ | x ) θ - - x ( θ , x ) x θL(θ;x)L(θ|x)θx(θ,x)xкогда индексируется параметром . θЧто часто грубо переводится как «вероятность данных».

Чтобы процитировать больше авторитетных и исторических источников, чем более ранний ответ на этом форуме,

«Мы можем обсудить вероятность появления величин, которые можно наблюдать ... в отношении любых гипотез, которые могут быть предложены для объяснения этих наблюдений. Мы ничего не можем знать о вероятности гипотез ... [Мы] можем установить вероятность гипотез ... путем расчета из наблюдений: ... говорить о вероятности ... наблюдаемой величины не имеет смысла ". Р. А. Фишер. О «вероятной ошибке» коэффициента корреляции, выведенного из небольшой выборки . Метрон 1, 1921, с.25

а также

«Что мы можем найти из выборки, так это вероятность любого конкретного значения r, если мы определим вероятность как величину, пропорциональную вероятности того, что из совокупности, имеющей конкретное значение r, выборка, имеющая наблюдаемое значение r , должен быть получен ". Р. А. Фишер. О «вероятной ошибке» коэффициента корреляции, выведенного из небольшой выборки . Метрон 1, 1921, с.24

который упоминает пропорциональность, которую Джеффрис (и я) находят излишним:

«Вероятность, удобный термин, введенный профессором Р.А. Фишером, хотя при его использовании он иногда умножается на постоянный коэффициент. Это вероятность наблюдений с учетом исходной информации и обсуждаемой гипотезы». Х. Джеффрис, Теория вероятностей , 1939, с.28

Процитирую только одно предложение из превосходного исторического вступления в тему Джона Олдрича (Статистическая наука, 1997):

«Фишер (1921, стр. 24) переписал то, что он написал в 1912 году об обратной вероятности, различая математические операции, которые могут быть выполнены с плотностями вероятности и вероятностями: вероятность не является« дифференциальным элементом », его нельзя интегрировать «. Дж. Олдрич, Р. А. Фишер и создание максимального правдоподобия 1912 - 1922 , 1997 , с.9

При принятии байесовского подхода функция правдоподобия не изменяется ни по форме, ни по природе. Это продолжает быть плотность в индексированной . Дополнительная особенность заключается в том, что, поскольку также наделено вероятностной моделью, то предварительное распределение, плотность в индексированная также можно интерпретировать как условную плотность, обусловленную реализацией : в байесовском моделировании. , одна реализация получается из предшествующей, с плотностью , затем реализация ,xθθxθθθπ()Xx, получается из распределения с плотностью , проиндексированного . Другими словами, и относительно надлежащей доминирующей меры, пара имеет общую плотность из которой получается апостериорная плотность , то есть условная плотность , обусловленная реализацией как также выражается как найденный со времен Джеффриса (1939) .L(θ|)θ(θ,x)

π(θ)×L(θ|x)
θθx
π(θ|x)π(θ)×L(θ|x)
posteriorprior×likelihood

Примечание: я нахожу различие, сделанное во введении на странице Википедии о функциях вероятности между вероятностными и байесовскими вероятностями, запутанным и ненужным, или просто ошибочным, поскольку подавляющее большинство современных байесовских статистиков не использует вероятность в качестве замены апостериорной вероятности. Точно так же «разница» , указанная на странице Википедии о теореме Байеса, звучит более запутанно, чем что-либо еще, поскольку эта теорема является вероятностным утверждением об изменении обусловленности, независимой от парадигмы или значения вероятностного утверждения. ( На мой взгляд , это скорее определение, чем теорема!)

Сиань
источник
1

В качестве небольшого дополнения:

Название «Вероятность» полностью вводит в заблуждение, потому что существует очень много разных возможных значений. Не только «нормальный язык» один, но и в статистике. Я могу думать по крайней мере о трех различных, но даже связанных выражениях, которые все называют Вероятностью; даже в учебниках.

Тем не менее, принимая мультипликативное определение правдоподобия, в нем нет ничего, что могло бы превратить его в какую-либо вероятность в смысле ее (например, аксиоматического) определения. Это действительное число. Вы можете сделать много вещей, чтобы вычислить или связать это с вероятностью (принимая отношения, вычисляя приоры и постеры, и т. Д.) - но само по себе это не имеет значения с точки зрения вероятности.

Ответ был более или менее устаревшим из-за гораздо более информативного и всеобъемлющего ответа Сианя. Но по запросу, некоторые из учебников определения вероятности:

  • функцияL(x;θ)
  • метод нахождения «наилучшего» значения параметра при условии некоторых наблюдаемых данных (Maximum L., Minimum L., log-L. и т. д.)θ
  • отношение значений правдоподобия для разных априорных значений (например, в задаче классификации) ... и, кроме того, разные значения, которые можно попытаться объяснить (ab) использованием вышеупомянутых элементов.
херувим
источник
1
Это было бы намного лучшим ответом, если бы вы могли добавить примеры / ссылки, потому что я могу представить как минимум три различных, но даже связанных выражения, которые все называются вероятностными; даже в учебниках .
kjetil b halvorsen