Можете ли вы дать простое интуитивное объяснение метода IRLS, чтобы найти MLE GLM?

13

Фон:

Я пытаюсь следовать обзору Принстона оценки MLE для GLM .

Я понимаю основы оценки MLE: likelihood, score, наблюдаемая и ожидаемая Fisher informationи Fisher scoringтехника. И я знаю, как обосновать простую линейную регрессию с помощью оценки MLE .


Вопрос:

Я не могу понять даже первую строку этого метода :(

Что такое интуиция за рабочими переменными Zя определенными как:

Zязнак равноη^я+(Yя-μ^я)dηяdμя

Почему они используются вместо Yя для оценки β ?

И как они связаны с тем, response/link functionчто есть связь между η и μ

Если кто-то имеет простое объяснение или может направить меня к более базовому тексту об этом, я был бы благодарен.

ihadanny
источник
1
В качестве дополнительного примечания, я узнал об IRLS в контексте надежной (M-) оценки, прежде чем услышать обо всей структуре "GLM" (которую я до сих пор не до конца понимаю). Для практической точки зрения на этот подход, в качестве простого обобщения наименьших квадратов, я бы порекомендовал источник, с которым я впервые столкнулся: Приложение B к книге Ричарда Шелиски «Computer Vision (free E-)» (первые 4 страницы, правда, хотя они ссылаются несколько хороших примеров).
GeoMatt22

Ответы:

15

Несколько лет назад я написал статью об этом для моих студентов (на испанском языке), поэтому я могу попытаться переписать эти объяснения здесь. Я посмотрю на IRLS (итеративно переоцененные наименьшие квадраты) через серию примеров возрастающей сложности. Для первого примера нам нужна концепция семейства масштабов местоположения. Пусть - функция плотности с центром в нуле в некотором смысле. Мы можем построить семейство плотностей, определив f ( x ) = f ( x ; µ , σ ) = 1е0 гдеσ>0- параметр масштаба, аμ- параметр местоположения. В модели ошибки измерения, где обычно термин ошибки моделируется как нормальное распределение, мы можем вместо этого нормального распределения использовать семейство масштабов местоположения, как построено выше. Когдаf0является стандартным нормальным распределением, приведенная выше конструкция дает семействоN(μ,σ).

е(Икс)знак равное(Икс;μ,σ)знак равно1σе0(Икс-μσ)
σ>0μе0N(μ,σ)

Теперь мы будем использовать IRLS на нескольких простых примерах. Сначала мы найдем оценки ML (максимальное правдоподобие) в модели с плотностью f ( y ) = 1

Y1,Y2,...,YNн.о.р.
распределение Коши семейства местоположений µ (так что это семейство местоположений). Но сначала несколько обозначений. Взвешенная оценка наименьших квадратов для μ определяется как μ = n i = 1 w i y i
е(Y)знак равно1π11+(Y-μ)2,Yр,
μμ гдеwi- некоторые веса. Мы видимчто ML оценкойцможет быть выражен в той же форме, сшIнекоторой функцией от остатков epsiя=уя - М . Функция правдоподобия определяется как L(y;μ)=(1
μ*знак равноΣязнак равно1NвесяYяΣязнак равно1Nвеся,
весяμвеся
εязнак равноYя-μ^,
а функция логарифмического правдоподобия задается как l(y)=-nlog(π)- n i=1log(1+(yi-μ)2). Его производная поμравна l ( y )
L(Y;μ)знак равно(1π)NΠязнак равно1N11+(Yя-μ)2
L(Y)знак равно-Nжурнал(π)-Σязнак равно1Nжурнал(1+(Yя-μ)2),
μ где εя=уя-М. Напишитеf0(ϵ)=1
L(Y)μзнак равно0-Σμжурнал(1+(Yя-μ)2)знак равно-Σ2(Yя-μ)1+(Yя-μ)2(-1)знак равноΣ2εя1+εя2
εязнак равноYя-μ иf0 (ϵ)=1е0(ε)знак равно1π11+ε2 , получаем f0 (ϵ)е0'(ε)знак равно1π-12ε(1+ε2)2 Мы находим l ( y )
е0'(ε)е0(ε)знак равно-12ε(1+ε2)211+ε2знак равно-2ε1+ε2,
где мы использовали определение wi= f 0 ( ϵ i )
L(Y)μзнак равно-Σе0'(εя)е0(εя)знак равно-Σе0'(εя)е0(εя)(-1εя)(-εя)знак равноΣвесяεя
Вспоминая, что ϵi=yi-μ,получаем уравнение wiyi=μwi, которое является уравнением оценки IRLS. Обратите внимание, что
весязнак равное0'(εя)е0(εя)(-1εя)знак равно-2εя1+εя2(-1εя)знак равно21+εя2,
εязнак равноYя-μ
ΣвесяYязнак равноμΣвеся,
  1. Веса всегда положительны.веся
  2. Если остаток большой, мы придаем меньшее значение соответствующему наблюдению.

μ^(0)

εя(0)знак равноYя-μ^(0)
веся(0)знак равно21+εя(0),
μ^
μ^(1)знак равноΣвеся(0)YяΣвеся(0),
εя(J)знак равноYя-μ^(J)
веся(J)знак равно21+εя(J),
J+1
μ^(J+1)знак равноΣвеся(J)YяΣвеся(J),
μ^(0),μ^(1),...,μ^(J),...

е(Y)знак равно1σе0(Y-μσ)Y1,Y2,...,YNεязнак равноYя-μσ

L(Y)знак равно-N2журнал(σ2)+Σжурнал(е0(Yя-μσ)),
νзнак равноσ2
εяμзнак равно-1σ
εяνзнак равно(Yя-μ)(1ν)'знак равно(Yя-μ)-12σ3,
L(Y)μзнак равноΣе0'(εя)е0(εя)εяμзнак равноΣе0'(εя)е0(εя)(-1σ)знак равно-1σΣео'(εя)е0(εя)(-1εя)(-εя)знак равно1σΣвесяεя
σ2
L(Y)νзнак равно-N21ν+Σе0'(εя)е0(εя)εяνзнак равно-N21ν+Σе0'(εя)е0(εя)(-(Yя-μ)2σ3)знак равно-N21ν-121σ2Σе0'(εя)е0(εя)εязнак равно-N21ν-121νΣе0'(εя)е0(εя)(-1εя)(-εя)εязнак равно-N21ν+121νΣвесяεя2знак равно!0.
σ2^знак равно1NΣвеся(Yя-μ^)2,

Далее мы дадим числовой пример, используя R, для двойной экспоненциальной модели (с известным масштабом) и с данными y <- c(-5,-1,0,1,5). Для этих данных истинное значение оценщика ML равно 0. Начальное значение будет mu <- 0.5. Один проход алгоритма

  iterest <- function(y, mu) {
               w <- 1/abs(y-mu)
               weighted.mean(y,w)
               }

с помощью этой функции вы можете поэкспериментировать с выполнением итераций «вручную». Затем итерационный алгоритм может быть выполнен

mu_0 <- 0.5
repeat {mu <- iterest(y,mu_0)
        if (abs(mu_0 - mu) < 0.000001) break
        mu_0 <- mu }

TКσ

весязнак равноК+1К+εя2,
вес(ε)знак равно1-еε1+еε-1ε,

На данный момент я оставлю это здесь, я продолжу этот пост.

Къетил б Халворсен
источник
UUя
1
Я добавлю больше к этому, просто вне времени сейчас! Идеи остаются прежними, но детали становятся более сложными.
kjetil b halvorsen
2
придет к этому!
kjetil b halvorsen
1
TК
2
Вы не возражаете написать пост в блоге, продолжая это объяснение? действительно полезно для меня, и я уверен, что будет для других ...
ihadanny