Какой из них лучше максимальная вероятность или предельная вероятность и почему?

13

При выполнении регрессии, если мы перейдем к определению из: Какова разница между частичной вероятностью, профильной вероятностью и предельной вероятностью?

что Максимальное правдоподобие
Найти β и θ, который максимизирует L (β, θ | данных).

В то время как предельное правдоподобие
Мы интегрируем θ из уравнения правдоподобия, используя тот факт, что мы можем определить распределение вероятности θ, условного на β.

Какую методологию лучше использовать и почему?

Анкит Чиплункар
источник

Ответы:

14

Каждый из них даст разные результаты с различной интерпретацией. Первый находит наиболее вероятную пару , θ , а второй - наиболее вероятный β . Представьте, что ваш дистрибутив выглядит так:βθβ

    β=1β=2
θ=10.0 0.2 
θ=20.1 0.2 
θ=30.3 0.2 

Затем максимального правдоподобия ответ ( θ = 3 ), в то время как максимальная предельная вероятность ответа β = 2 (так как , маргинализируя над & thetas , Р ( β = 2 ) = 0,6 ).β=1θ=3β=2θP(β=2)=0.6

Я бы сказал, что в общем случае предельное правдоподобие часто является тем, что вы хотите - если вы действительно не заботитесь о значениях параметров , то вам следует просто свернуть их. Но, вероятно, на практике эти методы не дадут очень разных результатов - если они это сделают, то это может указать на некоторую нестабильность в вашем решении, например, на несколько режимов с различными комбинациями β , θ, которые все дают схожие прогнозы.θβθ

Крис
источник
Я нашел разные результаты для методов максимального / предельного правдоподобия и, следовательно, вопрос. Я бы сказал, что два результата в моем случае дают разные интерпретации, но возможные результаты.
Анкит Чиплункар
5

Я сам сейчас занимаюсь этим вопросом. Вот результат, который может быть полезным. Рассмотрим линейную модель

y=Xβ+ϵ,ϵN(0,σ2)

где и & beta ; и σ 2 являются параметры , представляющие интерес. Совместная вероятностьyRn,βRp,βσ2

L(β,σ2)=(2πσ2)n/2exp(||yXβ||22σ2)

Оптимизация совместной вероятности доходности

β^=X+y

σ^2=1n||r||2

где представляет собой Псевдообратный X и г = у - Х β является нужным остаточный вектор. Отметим , что в σ 2 мы имеем 1 / п вместо привычных степенями свободы корректируется соотношение 1 / ( п - р ) . Известно, что эта оценка смещена в случае конечной выборки.X+Xr=yXβ^σ^21/n1/(np)

Теперь предположим, что вместо оптимизации как и σ 2 мы интегрируем β out и оцениваем σ 2 из полученной интегрированной вероятности:βσ2βσ2

σ^2=maxσ2RpL(β,σ2)dβ

Используя элементарную линейную алгебру и гауссову интегральную формулу, вы можете показать, что

σ^2=1np||r||2

Это имеет поправку на степени свободы, которая делает его беспристрастным и в целом предпочтительным по сравнению с совместной оценкой ОД.

Из этого результата можно было бы спросить, есть ли что-то по преимуществу в интегрированной вероятности, но я не знаю каких-либо общих результатов, которые отвечают на этот вопрос. Похоже, консенсус заключается в том, что интегрированный ML лучше учитывает неопределенность в большинстве проблем оценки. В частности, если вы оцениваете величину, которая зависит от других оценок параметров (даже неявно), то интеграция по другим параметрам будет лучше учитывать их неопределенности.

Павел
источник
1
Это интересно. Я, однако, немного обеспокоен тем фактом, что «интеграция » использует недопустимое предельное распределение, а также отсутствием какого-либо очевидного обоснования для использования этого (неправильного) маргинального по сравнению с любым другим. Что вы думаете об этих проблемах? β
whuber
1
@whuber Я разделяю ваши опасения и не имею готового ответа, но учтите, что вероятность маргинализации - это просто апостериор с равномерным неправильным значением до , поэтому я думаю, что это связано с «объективным байесовским» подходом. Там все равно, когда такой параметр, как β, имеет неправильное предварительное распределение, если апостериорный интегрируем. ββ
Пол
На самом деле, основываясь на этом посте и комментариях к нему, я думаю, что интегрированный ML, а не предельный ML, является правильным термином для того, что мы здесь делаем. Отредактировано соответственно.
Пол
1
+1 Я знаю, что я довольно опоздал на эту вечеринку, но не интегрирую фиксированные эффекты, накладывая на них неподходящую униформу, в точности то, что делает REML, так что вы на самом деле только что получили оценку REML, и эта коррекция df точно причина в том, что REML лучше для небольших образцов?
августа
@ Chaconne да, этот пост был мотивирован попыткой понять REML! У меня (почти) нет формального образования в области статистики, поэтому получение этого было для меня новым.
Пол
4

ββθθθθθip(θi)θdata, you can optimize the marginal likelihood w.r.t. β.

Seeda
источник