Я хотел бы сделать W-тест Шапиро Уилка и тест Колмогорова-Смирнова на невязках линейной модели, чтобы проверить на нормальность. Мне было просто интересно, какие остатки следует использовать для этого - необработанные остатки, остатки Пирсона, студентизированные остатки или стандартизированные остатки? Для теста W Шапиро-Уилка кажется, что результаты для неочищенных и остатков Пирсона идентичны, но не для других.
fit=lm(mpg ~ 1 + hp + wt, data=mtcars)
res1=residuals(fit,type="response")
res2=residuals(fit,type="pearson")
res3=rstudent(fit)
res4=rstandard(fit)
shapiro.test(res1) # W = 0.9279, p-value = 0.03427
shapiro.test(res2) # W = 0.9279, p-value = 0.03427
shapiro.test(res3) # W = 0.9058, p-value = 0.008722
shapiro.test(res4) # W = 0.9205, p-value = 0.02143
Тот же вопрос для KS, а также следует ли проверять остатки на соответствие нормальному распределению (pnorm), как в
ks.test(res1, "pnorm") # D = 0.296, p-value = 0.005563
или распределение t-студента с nk-2 степенями свободы, как в
ks.test(res3, "pt",df=nrow(mtcars)-2-2)
Любой совет, возможно? Кроме того, каковы рекомендуемые значения для статистики теста W (> 0,9?) И D, чтобы распределение было достаточно близко к нормальности и не слишком сильно влияло на ваш вывод?
Наконец, учитывает ли этот подход неопределенность в подгоночных коэффициентах lm или в этом отношении функционирование cumres()
в пакете gof()
будет лучше?
ура, Том
источник
Ответы:
Вырос слишком долго для комментария.
Для обычной регрессионной модели (такой, как было бы установлено
lm
) нет различия между первыми двумя остаточными типами, которые вы рассматриваете;type="pearson"
релевантен для негауссовых GLM, но такой же, какresponse
для гауссовых моделей.Наблюдения, к которым вы применяете свои тесты (некоторая форма остатков), не являются независимыми, поэтому обычная статистика не имеет правильного распределения. Кроме того, строго говоря, ни один из остатков, которые вы считаете, не будет в точности нормальным, поскольку ваши данные никогда не будут в точности нормальными. [Формальное тестирование отвечает на неправильный вопрос - более актуальным будет вопрос «насколько эта ненормальность повлияет на мой вывод?», На вопрос, на который не отвечает обычная проверка пригодности гипотезы.]
Даже если бы ваши данные были в точности нормальными, ни третий, ни четвертый остаточный тип не были бы в точности нормальными. Тем не менее, люди гораздо чаще проверяют их (например, на графиках QQ), чем необработанные остатки.
источник