Одинаковые коэффициенты, оцениваемые в модели Пуассона и Квази-Пуассона

12

При моделировании данных подсчета претензий в страховой среде я начал с Пуассона, но затем заметил чрезмерную дисперсию. Квази-Пуассон лучше моделировал большее отношение средней дисперсии, чем основной Пуассон, но я заметил, что коэффициенты были идентичны как в модели Пуассона, так и в модели Квази-Пуассона.

Если это не ошибка, почему это происходит? В чем преимущество использования квази-пуассона над пуассоном?

Что следует отметить:

  • Основные потери превышены, что (я считаю) не позволило работать Tweedie - но это был первый дистрибутив, который я попробовал. Я также исследовал модели NB, ZIP, ZINB и Hurdle, но все же обнаружил, что Quasi-Poisson обеспечивает наилучшее соответствие.
  • Я проверил на чрезмерную дисперсию через дисперсию в пакете AER. Мой дисперсионный параметр составлял примерно 8,4 с p-величиной в 10 ^ -16 величины.
  • Я использую glm () с family = poisson или quasipoisson и ссылку на журнал для кода.
  • При запуске кода Пуассона я получаю предупреждения «In dpois (y, mu, log = TRUE): нецелое число x = ...».

Полезные темы SE в соответствии с руководством Бена:

  1. Базовая математика смещений в пуассоновской регрессии
  2. Влияние смещений на коэффициенты
  3. Разница между использованием экспозиции как ковариата против смещения
Фрэнк Х.
источник
Разве распространение Tweedie не будет лучшей идеей?
Даффимо
Пробовал Tweedie с самого начала, но наши данные о потерях не основаны, а скорее на избыточной основе. Также использовались модели Negative Binomial, ZIP и Hurdle для решения проблемы дисперсии.
Фрэнк Х.
1
Можете ли вы объяснить немного больше о том, откуда берутся нецелые значения в ваших данных?
Бен Болкер
6
Вы не должны моделировать частоты / скорости, вычисляя соотношения counts/exposure. Скорее, вы должны добавить смещение ( offset(log(exposure))) термин для ваших моделей.
Бен Болкер
1
Это практично, хотя наиболее важно при моделировании Пуассона (не квази-Пуассона). Я не знаю хорошей ссылки на первый план; если вы не можете найти соответствующий ответ здесь, на CrossValidated, это будет хороший ответ.
Бен Болкер

Ответы:

25

χ2p

p

  • Как вы прокомментировали выше, существует множество разных подходов к избыточной дисперсии (Твиди, разные отрицательные биномиальные параметризации, квази-правдоподобие, нулевая инфляция / изменение).
  • С коэффициентом сверхдисперсности> 5 (8,4) я бы немного беспокоился о том, вызвано ли оно какой-то несовпадением моделей (выбросы, нулевая инфляция [которую, я вижу, вы уже пробовали), нелинейность), а не чем представляющих общую неоднородность. Мой общий подход к этому - графическое исследование исходных данных и диагностика регрессии ...
Бен Болкер
источник
Очень полезно. Теперь я вижу, что p-значения для переменных и уровней переменных в Пуассоне намного более статистически значимы, чем для квази-Пуассона, из-за упомянутого вами масштабирования. Я проверил выбросы, но не нашел в этом проблемы. Какие могут быть некоторые другие проблемы, которые маскируются из-за чрезмерной дисперсии, или примеры таких подходов, чтобы найти эти проблемы?
Фрэнк Х.
Преимущественно нелинейность ответов по шкале ссылок (лог); проверьте графики «остатки-против-подогнанные» и «остатки-против-предиктор-переменные», чтобы увидеть, есть ли шаблоны.
Бен Болкер
1
+1 Красиво выложено! Я действительно ценю ясность вашего первого абзаца.
Алексис