Сверхдисперсия и недисперсия в отрицательной биномиальной / пуассоновской регрессии

11

Я выполнял регрессию Пуассона в SAS и обнаружил, что значение хи-квадрат Пирсона, деленное на степени свободы, составляло около 5, что указывает на значительную избыточную дисперсию. Итак, я сопоставил отрицательную биномиальную модель с proc genmod и обнаружил, что значение хи-квадрат Пирсона, деленное на степени свободы, составляет 0,80. Считается ли это сейчас недостаточным? Если так, то как можно справиться с этим? Я много читал о чрезмерной дисперсии и думаю, что знаю, как с этим справиться, но информация о том, как справиться или определить, есть ли недостаточная дисперсия, скудна. Кто-нибудь может помочь?

Спасибо.

StatsStudent
источник

Ответы:

17

Для распределения Пуассона со средним дисперсия также . В рамках обобщенной линейной модели это означает , что функция дисперсии является для модели Пуассона. Это предположение модели может быть неверным по многим различным причинам. Например, часто встречаются данные избыточного рассеяния с дисперсией, превышающей то, что диктуется распределением Пуассона. μμ

V(μ)=μ

Отклонения от предположения о дисперсии в контексте регрессии могут принимать несколько форм. Простым является , что функция дисперсии равна с дисперсию параметра . Это квазипуассоновская модель. Это даст ту же самую подогнанную регрессионную модель, но статистический вывод ( и доверительные интервалы) корректируется с учетом избыточной или недостаточной дисперсии с использованием оценочного параметра дисперсии.

V(μ)=ψμ
ψ>0p

Функциональная форма функции дисперсии также может быть неправильной. Это может быть многочлен второй степени скажем. Примеры включают бином, отрицательный бином и гамма-модель. Выбор любой из этих моделей в качестве альтернативы модели Пуассона повлияет на модель подогнанной регрессии, а также на последующий статистический вывод. Для отрицательного биномиального распределения с параметром формы функция дисперсии Отсюда видно, что если мы получаем функцию дисперсии для распределения Пуассона.

V(μ)=aμ2+bμ+c,
λ>0
V(μ)=μ(1+μλ).
λ

Чтобы определить, подходит ли функция дисперсии для модели Пуассона для данных, мы можем оценить параметр дисперсии, как предполагает ОП, и проверить, равен ли он приблизительно 1 (возможно, с использованием формального теста). Такой тест не предлагает конкретной альтернативы, но он наиболее четко понят в рамках квазипуассоновской модели. Чтобы проверить, подходит ли функциональная форма функции дисперсии, мы могли бы построить тест отношения правдоподобия модели Пуассона ( ) по отношению к отрицательной биномиальной модели ( ). Обратите внимание, что он имеет нестандартное распределение при нулевой гипотезе. Или мы могли бы использовать основанные на AIC методы вообще для сравнения не вложенных моделей. Тесты на избыточную дисперсию в модели Пуассона на основе регрессииλ=λ< исследует класс тестов для общих функций дисперсии.

Тем не менее, я бы рекомендовал в первую очередь изучить графики остатков, например график остатков Пирсона или отклонения (или их квадратичное значение) в зависимости от установленных значений. Если функциональная форма отклонения неверна, вы увидите это как форму воронки (или тренд для квадратов остатков) на графике остатков. Если функциональная форма верна, то есть нет воронки или тренда, все равно может быть избыточная или недостаточная дисперсия, но это можно объяснить оценкой параметра дисперсии. Преимущество остаточного графика состоит в том, что он более четко, чем тест, показывает, что не так с функцией дисперсии, если что-либо.

В конкретном случае ФП невозможно сказать, что 0,8 указывает на недостаточное диспергирование данной информации. Вместо того, чтобы сосредоточиться на оценках 5 и 0,8, я предлагаю в первую очередь исследовать соответствие дисперсионных функций модели Пуассона и отрицательной биномиальной модели. После определения наиболее подходящей функциональной формы функции дисперсии параметр дисперсии может быть включен, если необходимо, в любую модель для корректировки статистического вывода для любого дополнительного избыточного или недостаточного рассеивания. Скажем, как это легко сделать в SAS, к сожалению, я не могу помочь.

NRH
источник
2
+1, это хорошая общая информация. Для ФП, возможно, будет более полезным, если вы конкретно ответите на четкие вопросы ФП: (1) .8 недостаточно распределен; & (2) если так, то как с этим бороться.
gung - Восстановить Монику
@gung, я отредактировал ответ, чтобы дать более конкретный совет. Вы не можете определить, является ли 0,8 значительно меньше 1 из доступной информации, и ИМХО, фокусируясь на том, равен ли параметр дисперсии 1, является диверсией. Моя редакция объясняет, на чем, я думаю, ФП должен сосредоточиться.
NRH