Регрессия Пуассона против регрессии по методу наименьших квадратов?

21

Пуассоновская регрессия - это GLM с функцией log-link.

Альтернативный способ моделирования данных с ненормально распределенным счетчиком - это предварительная обработка путем взятия журнала (или, скорее, журнала (1 + счет) для обработки 0). Если вы выполняете регрессию методом наименьших квадратов в ответах на количество журналов, связано ли это с регрессией Пуассона? Может ли он справиться с подобными явлениями?

Брендан Оконнор
источник
6
Как вы планируете брать логарифмы любых подсчетов, которые равны нулю?
whuber
3
Определенно не эквивалентно. Простой способ убедиться в этом - посмотреть, что произойдет, если вы наблюдаете ноль. (Комментарий создан до просмотра комментария @ whuber. По-видимому, эта страница не обновлялась надлежащим образом в моем браузере.)
Кардинал
ОК, я, очевидно, должен сказать, журнал (1 + кол). Очевидно, не эквивалентно, но интересно, были ли отношения, или они могут справиться с подобными явлениями.
Брендан Оконнор
1
Здесь есть полезное обсуждение этой проблемы: blog.stata.com/2011/08/22/…
Майкл Бишоп

Ответы:

22

С одной стороны, в регрессии Пуассона левая часть модельного уравнения представляет собой логарифм ожидаемого числа: .журнал(Е[Y|Икс])

С другой стороны, в «стандартной» линейной модели левая часть представляет собой ожидаемое значение переменной нормального отклика: . В частности, функция связи - это функция тождества.Е[Y|Икс]

Теперь допустим, что - переменная Пуассона, и вы намереваетесь ее нормализовать, взяв log: . Поскольку предполагается, что нормально, вы планируете использовать стандартную линейную модель, для которой левая часть . Но, в общем, . Как следствие, эти два подхода к моделированию различны.Y = log ( Y ) Y E [ Y | x ] = E [ log ( Y ) | x ] E [ log ( Y ) | x ] log ( E [ Y | x ] )YY'знак равножурнал(Y)Y'Е[Y'|Икс]знак равноЕ[журнал(Y)|Икс]Е[журнал(Y)|Икс]журнал(Е[Y|Икс])

ocram
источник
6
На самом деле, когда - либо , если P ( Y = F ( X ) | X ) не = 1 для некоторого сг ( X ) измеримая функция F , т.е. Y полностью определяется X . Е(журнал(Y)|Икс)журнал(Е(Y|Икс)) п(Yзнак равное(Икс)|Икс)знак равно1σ(Икс)еYИкс
кардинал
@cardinal. Очень хорошо поставлено.
Suncoolsu
9

Я вижу два важных различия.

Во-первых, прогнозируемые значения (в исходном масштабе) ведут себя по-разному; в логлинейных наименьших квадратах они представляют условные геометрические средние; в модели лог-пуассона представляют условные средства. Поскольку данные в этом типе анализа часто искажены правильно, условное геометрическое среднее будет недооценивать условное среднее.

Второе отличие - это подразумеваемое распределение: логнормальное и пуассоновское. Это относится к структуре гетероскедастичности остатков: остаточная дисперсия, пропорциональная квадрату ожидаемых значений (логнормальное), по сравнению с остаточной дисперсией, пропорциональной ожидаемому значению (Пуассон).

лудо
источник
-1

Одно очевидное отличие состоит в том, что регрессия Пуассона будет давать целые числа в качестве точечных предсказаний, тогда как линейная регрессия с числом логарифмов может давать нецелые числа.

Галит Шмуэли
источник
12
Как это работает? Разве GLM не оценивает ожидания , которые не обязательно являются интегральными?
whuber
1
Это неправда. Механически пуассоновские регрессии вполне способны обрабатывать нецелые числа. Стандартные ошибки не будут распределяться по Пуассону, но вместо этого вы можете использовать надежные стандартные ошибки.
Мэтью