Некоторые источники говорят, что функция правдоподобия не является условной вероятностью, некоторые говорят, что это так. Это очень смущает меня.
Согласно большинству источников, которые я видел, вероятность распределения с параметром должна быть произведением функции вероятности массы, учитывая выборок :x i
Например, в логистической регрессии мы используем алгоритм оптимизации, чтобы максимизировать функцию правдоподобия (максимальная оценка правдоподобия), чтобы получить оптимальные параметры и, следовательно, окончательную модель LR. Учитывая обучающих выборок, которые мы предполагаем независимыми друг от друга, мы хотим максимизировать произведение вероятностей (или совместных функций вероятности). Это кажется совершенно очевидным для меня.
Согласно соотношению: вероятность, условная вероятность и частота отказов , «вероятность не является вероятностью и не является условной вероятностью». Также упоминалось, что «правдоподобие является условной вероятностью только в байесовском понимании правдоподобия, т. Е. Если вы предполагаете, что является случайной величиной».
Я читал о различных перспективах решения проблемы обучения между частыми и байесовскими.
Согласно источнику, для байесовского вывода у нас есть априори , вероятность , и мы хотим получить апостериорный , используя байесовскую теорему:P ( X | θ ) P ( θ | X )
Я не знаком с байесовским выводом. Почему которое является распределением наблюдаемых данных, зависящим от его параметров, также называют вероятностью? В Википедии говорится, что иногда пишется . Что это значит?
Есть ли разница между частотным и байесовским определениями вероятности ??
Благодарю.
РЕДАКТИРОВАТЬ:
Существуют разные способы интерпретации теоремы Байеса - байесовской интерпретации и интерпретации Frequentist (см .: Теорема Байеса - Википедия ).
источник
Ответы:
В определении нет разницы - в обоих случаях функция правдоподобия - это любая функция параметра, пропорциональная плотности выборки. Строго говоря, мы не требуем, чтобы вероятность была равна плотности выборки; он должен быть только пропорциональным, что позволяет удалять мультипликативные части, которые не зависят от параметров.
В то время как плотность выборки интерпретируется как функция данных, зависящая от заданного значения параметра, функция правдоподобия интерпретируется как функция параметра для фиксированного вектора данных. Итак, в стандартном случае данных IID у вас есть:
В байесовской статистике мы обычно выражаем теорему Байеса в ее простейшей форме как:
Это выражение для теоремы Байеса подчеркивает, что оба его мультипликативных элемента являются функциями параметра, который представляет интерес для апостериорной плотности. (Этот результат соразмерности полностью определяет правило, поскольку апостериор является плотностью, и поэтому существует уникальная константа умножения, которая позволяет интегрировать его в единицу.) Как вы указали в своем обновлении, философия байесовской и частой философии имеет разные интерпретирующие структуры. В рамках парадигмы, основанной на частоте, этот параметр обычно рассматривается как «фиксированная константа», и поэтому он не приписывается вероятностному показателю. Поэтому часто отклоняют приписывание параметру априорного или последующего распределения (для более подробного обсуждения этих философских и интерпретативных различий см., Например, O'Neill 2009 ).
источник
Функция правдоподобия определяется независимо друг от или до статистической парадигмы, которая используется для вывода, как функция, (или ), параметра , функции что зависит от или индексируется смотровой (с) для этого вывода. А также неявно в зависимости от семейства вероятностных моделей, выбранных для представления изменчивости или случайности в данных. Для данного значения пары значение этой функции точно совпадает со значением плотности модели в− L ( θ ; x ) L ( θ | x ) θ - - x ( θ , x ) x θ− L(θ;x) L(θ|x) θ − − x (θ,x) x когда индексируется параметром . θ Что часто грубо переводится как «вероятность данных».
Чтобы процитировать больше авторитетных и исторических источников, чем более ранний ответ на этом форуме,
а также
который упоминает пропорциональность, которую Джеффрис (и я) находят излишним:
Процитирую только одно предложение из превосходного исторического вступления в тему Джона Олдрича (Статистическая наука, 1997):
При принятии байесовского подхода функция правдоподобия не изменяется ни по форме, ни по природе. Это продолжает быть плотность в индексированной . Дополнительная особенность заключается в том, что, поскольку также наделено вероятностной моделью, то предварительное распределение, плотность в индексированная также можно интерпретировать как условную плотность, обусловленную реализацией : в байесовском моделировании. , одна реализация получается из предшествующей, с плотностью , затем реализация ,x θ θ x θ θ θ π(⋅) X x , получается из распределения с плотностью , проиндексированного . Другими словами, и относительно надлежащей доминирующей меры, пара имеет общую плотность
из которой получается апостериорная плотность , то есть условная плотность , обусловленная реализацией как
также выражается как
найденный со времен Джеффриса (1939) .L(θ|⋅) θ (θ,x)
Примечание: я нахожу различие, сделанное во введении на странице Википедии о функциях вероятности между вероятностными и байесовскими вероятностями, запутанным и ненужным, или просто ошибочным, поскольку подавляющее большинство современных байесовских статистиков не использует вероятность в качестве замены апостериорной вероятности. Точно так же «разница» , указанная на странице Википедии о теореме Байеса, звучит более запутанно, чем что-либо еще, поскольку эта теорема является вероятностным утверждением об изменении обусловленности, независимой от парадигмы или значения вероятностного утверждения. ( На мой взгляд , это скорее определение, чем теорема!)
источник
В качестве небольшого дополнения:
Название «Вероятность» полностью вводит в заблуждение, потому что существует очень много разных возможных значений. Не только «нормальный язык» один, но и в статистике. Я могу думать по крайней мере о трех различных, но даже связанных выражениях, которые все называют Вероятностью; даже в учебниках.
Тем не менее, принимая мультипликативное определение правдоподобия, в нем нет ничего, что могло бы превратить его в какую-либо вероятность в смысле ее (например, аксиоматического) определения. Это действительное число. Вы можете сделать много вещей, чтобы вычислить или связать это с вероятностью (принимая отношения, вычисляя приоры и постеры, и т. Д.) - но само по себе это не имеет значения с точки зрения вероятности.
Ответ был более или менее устаревшим из-за гораздо более информативного и всеобъемлющего ответа Сианя. Но по запросу, некоторые из учебников определения вероятности:
источник