OLS vs. Poisson GLM с идентификационной связью

11

Мой вопрос показывает мое плохое понимание регрессии Пуассона и GLM в целом. Вот некоторые поддельные данные, чтобы проиллюстрировать мой вопрос:

### some fake data
x=c(1:14)
y=c(0,  1,  2,  3,  1,  4,  9, 18, 23, 31, 20, 25, 37, 45)

Некоторые пользовательские функции для возврата psuedo-R2:

### functions of pseudo-R2

psuR2 <- function(null.dev, model.dev) { 1 - (model.dev / null.dev)}

predR2 <- function(actuals, predicted) { 1 - (sum((actuals - predicted)^2)) / sum((actuals - mean(actuals))^2)}

Подходят четыре модели: OLS, Gaussian GLM с идентификационной связью, Poisson GLM с журнальной связью, Poisson GLM с идентификационной связью

#### OLS MODEL
mdl.ols=lm(y~x)
summary(mdl.ols)
pred.ols = predict(mdl.ols)

summary(mdl.ols)$r.squared
predR2(y, pred.ols)

#### GLM MODEL, family=gaussian(link="identity")
mdl.guass <- glm(y~x, family=gaussian(link="identity"), maxit=500)
summary(mdl.guass)
pred.guass = predict(mdl.guass)

psuR2(mdl.guass$null.deviance, mdl.guass$deviance)
predR2(y, pred.guass)

#### GLM MODEL, family=possion (canonical link)
mdl.poi_log <- glm(y~x, family=poisson(link="log"), maxit=500)
summary(mdl.poi_log)
pred.poi_log= exp(predict(mdl.poi_log))  #transform

psuR2(mdl.poi_log$null.deviance, mdl.poi_log$deviance)
predR2(y, pred.poi_log)

#### GLM MODEL, family=poisson((link="identity")
mdl.poi_id <- glm(y~x, family=poisson(link="identity"), start=c(0.5,0.5), maxit=500)
summary(mdl.poi_id)
pred.poi_id = predict(mdl.poi_id)

psuR2(mdl.poi_id$null.deviance, mdl.poi_id$deviance)
predR2(y, pred.poi_id)

Наконец, подготовьте прогнозы:

#### Plot the Fit
plot(x, y) 
lines(x, pred.ols)
lines(x, pred.guass, col="green")
lines(x,pred.poi_log, col="red")
lines(x,pred.poi_id, col="blue")

У меня есть 2 вопроса:

  1. Похоже, что коэффициенты и прогнозы, исходящие из OLS и Gaussian GLM с тождественной связью, абсолютно одинаковы. Это всегда правда?

  2. Я очень удивлен, что оценки и прогнозы OLS очень отличаются от Пуассона GLM с тождественной связью. Я думал, что оба метода будут пытаться оценить E (Y | X). Как выглядит функция вероятности, когда я использую идентификационную ссылку для Пуассона?

Уильям Чиу
источник
Связано: stats.stackexchange.com/questions/142338/…
kjetil b halvorsen
1
Если вы хотите использовать метод наименьших квадратов для аппроксимации модели Пуассона с помощью идентификационной ссылки, вы также можете использовать модель взвешенных наименьших квадратов, mdl.wols = lm (y ~ x, weights = 1 / log (y + 1.00000000001)), где журнал (y + 1.00000000001) затем берется в качестве первой оценки дисперсии (sqrt (y + 1E-10)) также работает - оценки таких моделей будут очень близки к оценкам Пуассона GLM с тождественной связью ...
Том Венселерс

Ответы:

14
  1. Да, это одно и то же. MLE для гауссианы - это метод наименьших квадратов, поэтому, когда вы делаете гауссовский GLM с идентификационной связью, вы делаете OLS.

  2. а) « Я думал, что оба метода будут пытаться оценить E (Y | X) »

    Действительно, они делают, но способ, которым условное ожидание оценивается как функция данных, не одинаков. Даже если мы игнорируем распределение (и, следовательно, как данные входят в вероятность) и думаем о GLM только с точки зрения среднего значения и дисперсии (как если бы это была только взвешенная регрессия), дисперсия Пуассона увеличивается со средним, так что Относительный вес наблюдений будет другим.

    б) « Как выглядит функция правдоподобия, когда я использую идентификационную ссылку для Пуассона? »

    L(β0,β1)=ieλiλiyi/yi!

    =exp(iλi+yilog(λi)log(yi!)) гдеλi=β0+β1xi

    =exp(i(β0+β1xi)+yilog(β0+β1xi)log(yi!))

Glen_b - Восстановить Монику
источник
4
Уточнение по второму пункту Glen_b. Одна история, которую я рассказал себе, и которую я нашел довольно проясняющей, заключается в том, что по мере увеличения оценочного условного среднего в модели Пуассона модель становится более терпимой к значениям данных вдали от условного среднего. Сравните это с прямой линейной моделью, которая одинаково терпима, независимо от того, как оценивается условное среднее.
Мэтью Друри,
@Glen_b, могу ли я попросить вас уточнить, что вы сказали: «следовательно, как данные входят в вероятность». Вы говорите, что вероятность подгонки модели различается между OLS и POisson (link = identity), когда подгоняется с использованием MLE ?. Т.е., при подборе OLS с использованием MLE, используете ли вы функцию правдоподобия для нормального распределения, чтобы вычислить вероятность подбора по сравнению с функцией правдоподобия из распределения Пуассона в последнем случае?
Алекс
1
@ Alex Right; OLS - это ML по гауссову, а гауссовская вероятность не равна пуассоновской вероятности
Glen_b