Пуассоновская регрессия - это GLM с функцией log-link.
Альтернативный способ моделирования данных с ненормально распределенным счетчиком - это предварительная обработка путем взятия журнала (или, скорее, журнала (1 + счет) для обработки 0). Если вы выполняете регрессию методом наименьших квадратов в ответах на количество журналов, связано ли это с регрессией Пуассона? Может ли он справиться с подобными явлениями?
regression
poisson-distribution
generalized-linear-model
Брендан Оконнор
источник
источник
Ответы:
С одной стороны, в регрессии Пуассона левая часть модельного уравнения представляет собой логарифм ожидаемого числа: .журнал( E[ Y| х])
С другой стороны, в «стандартной» линейной модели левая часть представляет собой ожидаемое значение переменной нормального отклика: . В частности, функция связи - это функция тождества.Е[ Y| х]
Теперь допустим, что - переменная Пуассона, и вы намереваетесь ее нормализовать, взяв log: . Поскольку предполагается, что нормально, вы планируете использовать стандартную линейную модель, для которой левая часть . Но, в общем, . Как следствие, эти два подхода к моделированию различны.Y ′ = log ( Y ) Y ′ E [ Y ′ | x ] = E [ log ( Y ) | x ] E [ log ( Y ) | x ] ≠ log ( E [ Y | x ] )Y Y'= журнал( Y) Y' Е[ Y'| х]=Е[ журнал( Y) | х ] Е[ журнал( Y) | х ] ≠ журнал( E[Y| х])
источник
Я вижу два важных различия.
Во-первых, прогнозируемые значения (в исходном масштабе) ведут себя по-разному; в логлинейных наименьших квадратах они представляют условные геометрические средние; в модели лог-пуассона представляют условные средства. Поскольку данные в этом типе анализа часто искажены правильно, условное геометрическое среднее будет недооценивать условное среднее.
Второе отличие - это подразумеваемое распределение: логнормальное и пуассоновское. Это относится к структуре гетероскедастичности остатков: остаточная дисперсия, пропорциональная квадрату ожидаемых значений (логнормальное), по сравнению с остаточной дисперсией, пропорциональной ожидаемому значению (Пуассон).
источник
Одно очевидное отличие состоит в том, что регрессия Пуассона будет давать целые числа в качестве точечных предсказаний, тогда как линейная регрессия с числом логарифмов может давать нецелые числа.
источник