Если вы действительно имели в виду логарифмическое правдоподобие , то ответ таков: это не всегда ноль.
Например, рассмотрим данные Пуассона: Yя∼ Пуассона ( μя) , я = 1 , … , п . Логарифмическая вероятность для Y= ( у1, ... , уN) определяется как:
ℓ ( μ ; Y) = - ∑я = 1Nμя+ ∑я = 1NYяжурналμя- ∑я = 1Nжурнал( уя! ) .( ∗ )
Продифференцируем ℓ ( μ ; Y) в ( ∗ ) отношению к μя и установите его равным 0 (вот так мы получаем MLE для насыщенной модели):
- 1 + уяμя= 0
Решите это для
μяполучить
μ я=уI, подставляя
μ Iобратно в
(*)для
цядаючто лог-правдоподобие насыщенной модели:
ℓ( ц ;Y)=n ∑ i=1yi(logyi-1)-n ∑ i=μ^я= уяμ^я( ∗ )μяℓ ( μ^; Y) = ∑я = 1NYя( журналYя- 1 ) - ∑я = 1Nжурнал( уя! ) ≠ 0
если
Yяпринимаю очень специальные значения.
На странице справки R
функции glm
, под элементом deviance
, документ объясняет эту проблему следующим образом:
deviance
с точностью до константы, минус удвоенная максимальная логарифмическая вероятность. Там, где это целесообразно, постоянная выбирается так, чтобы насыщенная модель имела отклонение ноль.
Обратите внимание, что в нем упоминается, что отклонение вместо логарифмической вероятности насыщенной модели выбирается равным нулю.
Вероятно, вы действительно хотели подтвердить, что « отклонение насыщенной модели всегда задается равным нулю», что является истинным, поскольку отклонение по определению (см. Раздел 4.5.1 « Анализ категориальных данных (2-е издание) » Алана Agresti) является статистикой отношения правдоподобия указанного GLM к насыщенной модели. constant
Выше в документации R фактически дважды развернутый лог-правдоподобие насыщенной модели.
Относительно вашего утверждения «Тем не менее, способ, которым дается формула отклонения, предполагает, что иногда это количество не равно нулю». Вероятно, это связано с неправильным использованием термина « отклонение» . Так , например, в R, отношение правдоподобия статистика сравнения два произвольных (вложенная) модель и М 2 также упоминаются как девиации, который будет более точно называется , как в разнице между девиацией из M 1 и девиацией из М 2 , если мы внимательно следим за определением, данным в книге Агрести.M1M2M1M2
Вывод
Логарифмическая вероятность насыщенной модели в целом не равна нулю.
Отклонение (в своем первоначальном определении) насыщенной модели равно нулю.
Девиация Выход из программного обеспечения (например, R), вообще говоря, не равно нуль , как это фактически означает что - то другое (разница между отклонениями).
Ниже приводится вывод для общего случая экспоненциального семейства и другой конкретный пример. Предположим, что данные поступают из экспоненциального семейства (см. « Современная прикладная статистика с S» , глава ):
f ( y i ; θ i , φ ) = exp [ A i ( y i θ i - γ ( θ i ) ) / φ + τ ( y i , φ / A i ) ] .7
е( уя; θя, φ ) = exp[ Aя( уяθя-γ( θя) ) / φ + τ( уя, φ / Aя) ] .(1)
где
- известные предшествующие веса, а
φ - параметр дисперсии / масштаба (для многих случаев, таких как биномиальное и пуассоновское, этот параметр известен, в то время как для других случаев, таких как нормальное и гамма-значение, этот параметр неизвестен). Тогда логарифмическое правдоподобие определяется как:
ℓ ( θ , φ ; Y ) = n ∑ i = 1 A i ( y i θ i - γ ( θ i ) ) / φ + n ∑ i = 1 τAяφ
Как и в примере Пуассона, параметры насыщенной модели можно оценить, решив следующуюфункцию
оценки:
0 = U ( θ i ) = ∂ ℓ ( θ , φ ; Y )ℓ ( θ , φ ; Y) = ∑я = 1NAя( уяθя-γ( θя) ) / φ + ∑я = 1Nτ( уя, φ / Aя) .
0 = U( θя) = ∂ℓ ( θ , φ ; Y)∂θя= Aя( уя- γ'( θя) )φ
θ^я
ℓ ( θ^, φ ; Y) = ∑я = 1NAя( уяθ^я- γ( θ^я) ) / φ + ∑я = 1Nτ( уя, φ / Aя) .( ∗ ∗ )
( ∗ ∗ )Γ ( α , β)
е( у; α , β) = βαΓ ( α )е- βYYα - 1,Y> 0 , α > 0 , β> 0 ,
е( 1 )φ = 1α,θ = - βα,
ее( у; θ , φ ) = exp[ θ у- ( - журнал( - θ ) )φ+ τ( у, φ ) ] ,
τ( у, φ ) = - logφφ+ ( 1φ- 1 ) журналY- журналΓ ( φ- 1) .
θ^я= - 1YяΣя = 1N1φ[ θ^яYя- ( - журнал( - θ^я) ) ] = ∑я = 1N1φ[ - 1 - журнал( уя) ] ≠ 0 ,
Yя
Ответ Чжансяна уже велик (+1), но вот быстрая демонстрация того, что логарифмическая вероятность насыщенной модели0 для логистической регрессии. Я решил опубликовать, потому что я не видел этот TeX на этом сайте, и потому что я просто написал их для лекции.
ВероятностьL ( y ; X , β ) = ∏я = 1Nе( уя; Икся, β ) = ∏я = 1NπYяя( 1 - πя)1 - йя= ∏я = 1N( πя1 - πя)Yя( 1 - πя)(1)
где πя= invlogit ( x⊺яβ ) ,
Логарифмическая вероятностьжурналL ( y ; X , β )= ∑я = 1NYяжурнал( πя1 - πя) +журнал( 1 - πя)= ∑я = 1NYялогит ( πя) + журнал( 1 - πя)= ∑я = 1NYяИкс⊺яβ + log( 1 - invlogit ( x⊺яβ ) )= ∑я = 1NYяИкс⊺яβ + log( invlogit ( - x⊺яβ ) )= ∑я = 1NYяИкс⊺яβ - лог( 1 + опыт[ х⊺яβ ] ) )
Если вы берете производные по всем коэффициентам, которые вы получаете∇ л ( β ) = Σя = 1NYяИкся- опыт[ х⊺яβ ]( 1 + опыт[ х⊺яβ ] )Икся,(2)
Установка этого выражения равным0 и решение для β даст вам ответ. Обычно это не может быть сделано аналитически, что объясняет популярность / необходимость использования итерационных алгоритмов для соответствия этой модели, но в случае насыщенной модели это возможно.
Чтобы найти насыщенную модель, мы даем каждому ряду свой коэффициент. Такβ ∈ RN и матрица дизайна умножается на вектор коэффициента
X β= ⎡⎣⎢⎢⎢⎢⎢10⋮001⋮0⋯⋯⋱⋯00⋮1⎤⎦⎥⎥⎥⎥⎥⎡⎣⎢⎢⎢⎢β1β2⋮βN⎤⎦⎥⎥⎥⎥,
Обратите внимание, что, в частности,Икс⊺яβ = βя ,
Итак, принимаяJ Строка уравнения (2) дает нам
Σя = 1NYяИкся , дж= ∑я = 1Nехр[ х⊺яβ ]( 1 + опыт[ х⊺яβ ] )Икся , дж
что может быть правдой, только если для каждого наблюденияя :
источник
glm( cbind(k, n-k) ~ x + ...
), тогда насыщенная модель не имеет логарифмического правдоподобия ноль.@ Алекс: да, верно. по крайней мере, для дискретных распределений. для непрерывных распределений все сводится к тому, чтобы позволить плотности быть равной 1, что не обязательно имеет смысл и, следовательно, не является разумной вещью, которую нужно пытаться достичь. В более общем смысле логарифмическая вероятность насыщенной модели дает вам верхнюю границу производительности любой модели, которая соответствует вашему предположению о базовом семействе распределений. Другими словами, логарифмическая вероятность насыщенной биномиальной модели, которую она «хорошо получает» для данного набора данных (X, Y), предполагая, что Y является биномиальной. Имеет смысл сравнить вашу модель glm с этой верхней границей, а не, скажем, на 100% (или аналогичной), поскольку ваша модель по своей природе ограничена вашим предположением о распределении ответов.
источник