Я пытаюсь согласовать данные с GLM (регрессия Пуассона) в R. Когда я построил графики остатков и подгоночных значений, график создал несколько (почти линейных с небольшой вогнутой кривой) «линий». Что это значит?
library(faraway)
modl <- glm(doctorco ~ sex + age + agesq + income + levyplus + freepoor +
freerepa + illness + actdays + hscore + chcond1 + chcond2,
family=poisson, data=dvisits)
plot(modl)
homework
как вы говорили о назначении.table(dvisits$doctorco)
. Что соответствуют 10 изогнутым линиям на вашем графике в этой таблице? Кроме того, при наличии более 5000 наблюдений не стоит слишком беспокоиться о подборе 13 коэффициентов регрессии.Ответы:
Это вид, который вы ожидаете от такого графика, когда зависимая переменная дискретна.
Мы можем воспроизвести рассматриваемый график довольно близко с помощью аналогичной, но произвольной модели (с использованием небольших случайных коэффициентов):
источник
Иногда подобные полосы на остаточных графиках представляют точки с (почти) идентичными наблюдаемыми значениями, которые получают разные прогнозы. Посмотрите на ваши целевые значения: сколько они уникальных значений? Если мое предложение верно, в вашем наборе данных должно быть 9 уникальных значений.
источник
Этот шаблон характерен для неправильного соответствия семьи и / или ссылки. Если у вас есть избыточные данные, то, возможно, вам следует рассмотреть отрицательное биномиальное (количество) или гамма (непрерывное) распределение. Кроме того, вы должны строить свои остатки против преобразованного линейного предиктора, а не предикторов при использовании обобщенных линейных моделей. Чтобы преобразовать предиктор Пуассона, вам нужно взять 2-кратный квадратный корень от линейного предиктора и вычеркнуть свои остатки против этого. Кроме того, остатки не должны быть исключительно остатками Пирсона, попробуйте отклонения отклонений и изученных остатков.
источник