Какова причина того, что функция правдоподобия не PDF?

59

В чем причина того, что функция правдоподобия не является pdf (функцией плотности вероятности)?

Джон Доу
источник
6
Функция правдоподобия является функцией неизвестного параметра θ (обусловлена ​​данными). Как таковая, она, как правило, не имеет области 1 (т. Е. Интеграл по всем возможным значениям θ не равен 1) и поэтому по определению не является pdf.
MånsT
4
Тот же вопрос по МО 2 года назад: mathoverflow.net/questions/10971/…
Дуглас Заре
3
Интересная ссылка, @Douglas. Ответы довольно неудовлетворительные, ИМХО. Принято одно предполагает вещи, которые просто не соответствуют действительности («оба p(X|m) и p(m|X) являются pdfs»: нет !), А другие на самом деле не разбираются в статистических вопросах.
whuber
2
+1 вубер. Удивительно, что на сайте mathoverflow есть такие плохие ответы, несмотря на его высокий математический уровень!
Стефан Лоран
1
@Stephane: Это правда, но статистики и даже вероятностники, кажется, довольно мало и далеко друг от друга по МО, за некоторыми заметными исключениями. Этот вопрос возник с довольно раннего периода существования МО, когда как общеприемлемые вопросы, так и качество ответов существенно различались.
кардинал

Ответы:

62

Начнем с двух определений:

  • Функция плотности вероятности (PDF) является неотрицательной функцией , которая интегрируется с 1 .

  • Вероятность определяется как общая плотность наблюдаемых данных в зависимости от параметра. Но, как указывает ссылка на Lehmann, сделанная @whuber в комментарии ниже, функция правдоподобия является функцией только параметра, а данные хранятся в виде фиксированной константы. Поэтому тот факт, что это плотность как функция данных, не имеет значения.

Следовательно, функция правдоподобия не является pdf, потому что ее интеграл по параметру не обязательно равен 1 (и может вообще не быть интегрируемым, как указано в другом комментарии @whuber).

Чтобы увидеть это, мы будем использовать простой пример. Предположим , у вас есть одно наблюдение, , с Б е р п о ¯u л л я ( & thetas ; ) распределения. Тогда функция правдоподобияxBernoulli(θ)

L(θ)=θx(1θ)1x

Это факт , что . В частности, если х = 1 , то L ( θ ) = θ , так что 1 0 L ( θ ) d θ = 1 0 θ d θ = 1 / 201L(θ)dθ=1/2x=1L(θ)=θ

01L(θ)dθ=01θ dθ=1/2

и аналогичный расчет применяется, когда . Следовательно, L ( θ ) не может быть функцией плотности.x=0L(θ)

Возможно, даже более важным, чем этот технический пример, показывающий, почему вероятность не является плотностью вероятности, является указание на то, что вероятность - это не вероятность того, что значение параметра правильное или что-то в этом роде, - это вероятность (плотность) данных учитывая значение параметра , что совершенно другое. Поэтому не следует ожидать, что функция правдоподобия будет вести себя как плотность вероятности.

макрос
источник
12
dθψ=log(θ/(1θ))
3
Это один из способов выразить это: MLE инвариантны относительно монотонных преобразований, но плотности вероятностей нет, QED! Это был именно аргумент Фишера, который я набросал в комментарии к ответу @Michael Chernick.
whuber
4
dθσ
1
Df
1
(+1) Позвольте мне первым поздравить вас с достижением 10K представителя! Хороший ответ; Мне особенно нравится пример, который вы приводите. Приветствия. :)
кардинал
2

θ

Майкл Черник
источник
3
Итак, вы просто указываете, что вероятность является интегрируемой по отношению к параметру (всегда ли это так?). Я предполагаю, что вы, возможно, намекаете на связь вероятности с апостериорным распределением при использовании плоского априора, но без дополнительного объяснения этот ответ остается для меня загадочным.
Макро
6
Интеграция в единство не имеет значения. Фишер в статье 1922 года « О математических основах теоретической статистики» заметил, что на самом деле обычно вероятность можно «нормализовать» для интегрирования в единицу при умножении на подходящую функцию так что . То , что он возражает против является произвольность : Есть много , что работы. «... слово« вероятность »неправильно используется в такой связи: вероятность - это отношение частот, а о частотах таких значений мы ничего не можем знать». p ( θ ) L ( θ ) p ( θ ) d θ = 1 пL(θ)p(θ)L(θ)p(θ)dθ=1p
whuber
1
@ Нестор (и Майкл) - кажется, что мы с Вубером оба истолковали этот вопрос как вопрос о том, почему вероятность не является функцией плотности, как функцияθ поэтому кажется, что мы отвечаем на разные вопросы. Конечно, вероятность - это функция плотности наблюдений (учитывая значение параметра) - так она определяется.
Макро
2
θθ
4
f(x1,θ)f(xn,θ)xθ
whuber
1

Я не статистик, но я понимаю, что, хотя сама функция правдоподобия не является PDF по отношению к параметру (ам), она напрямую связана с этим PDF по правилу Байеса. Функция правдоподобия P (X | theta) и апостериорное распределение f (theta | X) тесно связаны; совсем не "совсем другая вещь".

Сантаяна
источник
1
Добро пожаловать на наш сайт! Вы можете найти интересный материал в комментариях к другим ответам в этой теме. Некоторые из них указывают, почему правило Байеса не применяется, если явно не введены дополнительные математические механизмы (например, поле Sigma для параметра).
whuber
Спасибо @whuber. Я не заметил каких-либо ссылок на правило Байеса в других разделах цепочки, но я полагаю, что в комментариях есть намеки, если предположить, что кто-то достаточно свободно оценивает их на уровне выпускника (а я нет). Не согласитесь ли вы с тем, что размещение функции правдоподобия в контексте правила Байеса дает полезную интуицию для вопроса ОП?
Сантаяна
θθ
Мои извинения, на первый взгляд эта ветка казалась чем-то большим, чем просто недоразумением, но теперь я вижу соответствующие комментарии, на которые вы ссылаетесь, в частности вашу цитату из Фишера. Но не сводится ли это к Байесовскому против. Частые дебаты? Не существует ли большого числа практиков байесовского вывода, которые бы высказались в пользу распределения вероятностей для тэты? (согласны ли вы с ними другое дело ...)
santayana
1
θ
1

L(θ;x1,...,xn)=f(x1,...,xn;θ)


L(θ;x1,...,xn)=f(x1,...,xn;θ)=jf(xj;θ)

Давайте посмотрим на его оригинальную форму:

f(x1,...,xn;θ)=f(θ;x1,...,xn)f(x1,...,xn)f(θ)L^=posteriorevidencepriorL^LLL^

Например, я не знаю среднего значения и стандартной дисперсии гауссовского распределения и хочу получить их путем обучения с использованием большого количества выборок из этого распределения. Сначала я случайным образом инициализирую среднее и стандартную дисперсию (которая определяет распределение Гаусса), а затем беру одну выборку и вписываюсь в предполагаемое распределение, и я могу получить вероятность из предполагаемого распределения. Затем я продолжаю вставлять выборку и получаю много вероятностей, а затем умножаю эти вероятности и получаю оценку. Этот вид оценки является вероятностью. Вряд ли это может быть вероятность определенного PDF.

Лернер Чжан
источник