В GLM логарифмическая вероятность насыщенной модели всегда равна нулю?

14

Как часть вывода обобщенной линейной модели, нулевое и остаточное отклонение используются для оценки модели. Я часто вижу формулы для этих величин, выраженные в виде логарифмической вероятности насыщенной модели, например: /stats//a/113022/22199 , Логистическая регрессия: как получить насыщенную модель

Насколько я понимаю, насыщенная модель - это модель, которая идеально соответствует наблюдаемой реакции. Таким образом, в большинстве мест, которые я видел, логарифмическая вероятность насыщенной модели всегда задается равной нулю.

Тем не менее, способ, которым дается формула отклонения, предполагает, что иногда эта величина не равна нулю. (Как будто он всегда равен нулю, зачем его включать?)

В каких случаях оно может быть ненулевым? Если оно никогда не равно нулю, зачем включать его в формулу отклонения?

Alex
источник

Ответы:

18

Если вы действительно имели в виду логарифмическое правдоподобие , то ответ таков: это не всегда ноль.

Например, рассмотрим данные Пуассона: Yя~Пуассон(μя),язнак равно1,...,N . Логарифмическая вероятность для Yзнак равно(Y1,...,YN) определяется как:

(*)(μ;Y)знак равно-Σязнак равно1Nμя+Σязнак равно1NYяжурналμя-Σязнак равно1Nжурнал(Yя!),

Продифференцируем (μ;Y) в (*) отношению к μя и установите его равным 0 (вот так мы получаем MLE для насыщенной модели):

-1+Yяμязнак равно0.
Решите это дляμяполучить μ я=уI, подставляя μ Iобратно в(*)дляцядаючто лог-правдоподобие насыщенной модели: ( ц ;Y)=n i=1yi(logyi-1)-n i=μ^язнак равноYяμ^я(*)μя
(μ^;Y)знак равноΣязнак равно1NYя(журналYя-1)-Σязнак равно1Nжурнал(Yя!)0
еслиYяпринимаю очень специальные значения.

На странице справки Rфункции glm, под элементом deviance, документ объясняет эту проблему следующим образом:

deviance с точностью до константы, минус удвоенная максимальная логарифмическая вероятность. Там, где это целесообразно, постоянная выбирается так, чтобы насыщенная модель имела отклонение ноль.

Обратите внимание, что в нем упоминается, что отклонение вместо логарифмической вероятности насыщенной модели выбирается равным нулю.

Вероятно, вы действительно хотели подтвердить, что « отклонение насыщенной модели всегда задается равным нулю», что является истинным, поскольку отклонение по определению (см. Раздел 4.5.1 « Анализ категориальных данных (2-е издание) » Алана Agresti) является статистикой отношения правдоподобия указанного GLM к насыщенной модели. constantВыше в документации R фактически дважды развернутый лог-правдоподобие насыщенной модели.

Относительно вашего утверждения «Тем не менее, способ, которым дается формула отклонения, предполагает, что иногда это количество не равно нулю». Вероятно, это связано с неправильным использованием термина « отклонение» . Так , например, в R, отношение правдоподобия статистика сравнения два произвольных (вложенная) модель и М 2 также упоминаются как девиации, который будет более точно называется , как в разнице между девиацией из M 1 и девиацией из М 2 , если мы внимательно следим за определением, данным в книге Агрести.M1M2M1M2

Вывод

  1. Логарифмическая вероятность насыщенной модели в целом не равна нулю.

  2. Отклонение (в своем первоначальном определении) насыщенной модели равно нулю.

  3. Девиация Выход из программного обеспечения (например, R), вообще говоря, не равно нуль , как это фактически означает что - то другое (разница между отклонениями).


Ниже приводится вывод для общего случая экспоненциального семейства и другой конкретный пример. Предположим, что данные поступают из экспоненциального семейства (см. « Современная прикладная статистика с S» , глава ): f ( y i ; θ i , φ ) = exp [ A i ( y i θ i - γ ( θ i ) ) / φ + τ ( y i , φ / A i ) ] .7

(1)е(Yя;θя,φ)знак равноехр[Aя(Yяθя-γ(θя))/φ+τ(Yя,φ/Aя)],
где - известные предшествующие веса, а φ - параметр дисперсии / масштаба (для многих случаев, таких как биномиальное и пуассоновское, этот параметр известен, в то время как для других случаев, таких как нормальное и гамма-значение, этот параметр неизвестен). Тогда логарифмическое правдоподобие определяется как: ( θ , φ ; Y ) = n i = 1 A i ( y i θ i - γ ( θ i ) ) / φ + n i = 1 τAяφ Как и в примере Пуассона, параметры насыщенной модели можно оценить, решив следующуюфункциюоценки: 0 = U ( θ i ) = ( θ , φ ; Y )
(θ,φ;Y)знак равноΣязнак равно1NAя(Yяθя-γ(θя))/φ+Σязнак равно1Nτ(Yя,φ/Aя),
0знак равноU(θя)знак равно(θ,φ;Y)θязнак равноAя(Yя-γ'(θя))φ

θ^я

(**)(θ^,φ;Y)знак равноΣязнак равно1NAя(Yяθ^я-γ(θ^я))/φ+Σязнак равно1Nτ(Yя,φ/Aя),

(**)Γ(α,β)


е(Y;α,β)знак равноβαΓ(α)е-βYYα-1,Y>0,α>0,β>0,
е(1)
φзнак равно1α,θзнак равно-βα,
е
е(Y;θ,φ)знак равноехр[θY-(-журнал(-θ))φ+τ(Y,φ)],
τ(Y,φ)знак равно-журналφφ+(1φ-1)журналY-журналΓ(φ-1),
θ^язнак равно-1Yя
Σязнак равно1N1φ[θ^яYя-(-журнал(-θ^я))]знак равноΣязнак равно1N1φ[-1-журнал(Yя)]0,
Yя
Zhanxiong
источник
1
Является ли логарифмическая вероятность равной нулю тогда и только тогда, когда модель может присвоить 100% вероятности каждому из возможных результатов?
Алекс
Я не совсем понимаю, что вы имели в виду. Но из моего вывода вы можете сделать вывод, что это0 если и только если τ идентично 0 и нет параметра дисперсии.
Zhanxiong
Ваш вывод очень хорош, но формальное доказательство сейчас немного выше моей головы. Спасибо за ваш пример с моделью Пуассона. Что я извлек из этого примера, так это то, что модель Пуассона не может присвоить 100% -ную вероятность наблюдаемому исходу при любом значении для среднего Пуассона, поэтому вероятность не может быть нулевой.
Алекс
Утверждение «модель назначить 100% Вероятность наблюдаемого исхода "звучит странно для меня. Вы имеете в виду, что с учетом наблюдений Y1,...,YN, и если Y является случайной величиной Пуассона, п(Yзнак равноY1)+п(Yзнак равноY2)++п(Yзнак равноYN)<1?
Zhanxiong
1
Я имел в виду, что если Y была случайная переменная Пуассона, то п(Yзнак равноYя)<1 для любого яили среднее Пуассона, таким образом, невозможно найти какой-либо модельный параметр, который дает логарифмическую вероятность нуля для наблюдаемого. Может быть, я совершенно не понимаю концепцию насыщенной модели.
Алекс
4

Ответ Чжансяна уже велик (+1), но вот быстрая демонстрация того, что логарифмическая вероятность насыщенной модели 0для логистической регрессии. Я решил опубликовать, потому что я не видел этот TeX на этом сайте, и потому что я просто написал их для лекции.

Вероятность

(1)L(Y;Икс,β)знак равноΠязнак равно1Nе(Yя;Икся,β)знак равноΠязнак равно1NπяYя(1-πя)1-Yязнак равноΠязнак равно1N(πя1-πя)Yя(1-πя)
где πязнак равноinvlogit(Иксяβ),

Логарифмическая вероятность

журналL(Y;Икс,β)знак равноΣязнак равно1NYяжурнал(πя1-πя)+журнал(1-πя)знак равноΣязнак равно1NYялогит(πя)+журнал(1-πя)знак равноΣязнак равно1NYяИксяβ+журнал(1-invlogit(Иксяβ))знак равноΣязнак равно1NYяИксяβ+журнал(invlogit(-Иксяβ))знак равноΣязнак равно1NYяИксяβ-журнал(1+ехр[Иксяβ]))

Если вы берете производные по всем коэффициентам, которые вы получаете

(2)(β)знак равноΣязнак равно1NYяИкся-ехр[Иксяβ](1+ехр[Иксяβ])Икся,

Установка этого выражения равным 0 и решение для βдаст вам ответ. Обычно это не может быть сделано аналитически, что объясняет популярность / необходимость использования итерационных алгоритмов для соответствия этой модели, но в случае насыщенной модели это возможно.

Чтобы найти насыщенную модель, мы даем каждому ряду свой коэффициент. ТакβрN и матрица дизайна умножается на вектор коэффициента

Иксβзнак равно[100010001][β1β2βN],

Обратите внимание, что, в частности, Иксяβзнак равноβя,

Итак, принимая JСтрока уравнения (2) дает нам

Σязнак равно1NYяИкся,Jзнак равноΣязнак равно1Nехр[Иксяβ](1+ехр[Иксяβ])Икся,J

что может быть правдой, только если для каждого наблюдения я:

Yязнак равноinvlogit(βя)
или, другими словами, каждый βя плюс или минус бесконечность (если Yя является 1 или 0соответственно). Мы можем вставить эти параметры обратно в (1), чтобы получить максимальную вероятность:
Πязнак равно1Nπ^яYя(1-π^я)1-Yязнак равно1Nзнак равно1.
Ясно, что журнал это 0,

Тейлор
источник
Но это предполагает несгруппированные данные . Если у вас есть группы сNя>1(и те же самые ковариатные значения) (в R, например, используя форму glm( cbind(k, n-k) ~ x + ... ), тогда насыщенная модель не имеет логарифмического правдоподобия ноль.
kjetil b halvorsen
@kjetilbhalvorsen о, хороший вопрос. Я никогда не пробовал это, дайте мне проверить
Тейлор
1

@ Алекс: да, верно. по крайней мере, для дискретных распределений. для непрерывных распределений все сводится к тому, чтобы позволить плотности быть равной 1, что не обязательно имеет смысл и, следовательно, не является разумной вещью, которую нужно пытаться достичь. В более общем смысле логарифмическая вероятность насыщенной модели дает вам верхнюю границу производительности любой модели, которая соответствует вашему предположению о базовом семействе распределений. Другими словами, логарифмическая вероятность насыщенной биномиальной модели, которую она «хорошо получает» для данного набора данных (X, Y), предполагая, что Y является биномиальной. Имеет смысл сравнить вашу модель glm с этой верхней границей, а не, скажем, на 100% (или аналогичной), поскольку ваша модель по своей природе ограничена вашим предположением о распределении ответов.

bettmensch88
источник