У меня есть эти данные:
set.seed(1)
predictor <- rnorm(20)
set.seed(1)
counts <- c(sample(1:1000, 20))
df <- data.frame(counts, predictor)
Я провел пуассоновскую регрессию
poisson_counts <- glm(counts ~ predictor, data = df, family = "poisson")
И отрицательная биноминальная регрессия:
require(MASS)
nb_counts <- glm.nb(counts ~ predictor, data = df)
Затем я рассчитал для статистики дисперсии для пуассоновской регрессии:
sum(residuals(poisson_counts, type="pearson")^2)/df.residual(poisson_counts)
# [1] 145.4905
И отрицательная биноминальная регрессия:
sum(residuals(nb_counts, type="pearson")^2)/df.residual(nb_counts)
# [1] 0.7650289
Кто-нибудь может объяснить, БЕЗ ИСПОЛЬЗОВАНИЯ УРАВНЕНИЙ, почему статистика дисперсии для отрицательной биномиальной регрессии значительно меньше, чем статистика дисперсии для пуассоновской регрессии?
Для модели Пуассона, если ожидание для го наблюдения равно его дисперсия равна , и, следовательно, остаток Пирсонаi Yi μi μi
где - оценка среднего. Параметризация отрицательной биномиальной модели используется в MASS объясняется здесь . Если ожидание для го наблюдения равно его дисперсия равна , и, следовательно, остаток Пирсонаμ^ i Yi μi μi+μ2θ
где - оценка среднего значения. Чем меньше значение т. Е. Больше экстра-пуассоновская дисперсия, тем меньше остаток по сравнению с его пуассоновским эквивалентом. [Но, как указал @whuber, оценки средних значений не совпадают, , потому что процедура оценки взвешивает наблюдения в соответствии с их предполагаемой дисперсией. Если бы вы делали повторные измерения для го шаблона предиктора, они были бы ближе, и в целом добавление параметра должно было бы лучше соответствовать всем наблюдениям, хотя я не знаю, как это строго продемонстрировать. Тем не менее, количество популяции, которое вы оцениваете, больше, если модель Пуассона справедлива, поэтому это не должно быть сюрпризом.]μ~ θ μ^≠μ~ i
источник