Гетероскедастичность и нормальность остатков

12

Полагаю, у меня неплохая линейная регрессия (это для университетского проекта, поэтому мне не нужно быть очень точным).

Дело в том, что если я построю график зависимости остатков от прогнозируемых значений, то (по словам моего учителя) есть намек на гетероскедастичность.

Но если я нанесу QQ-график остатков, ясно, что они нормально распределены. Более того, тест Шапиро на невязках имеет значение , так что я думаю, что нет сомнений, что остатки на самом деле нормально распределены.п0.8

Вопрос: Как может быть гетероскедастичность по прогнозируемым значениям, если остатки нормально распределены?

Муравей
источник
1
Одно очень короткое дополнение к отличному ответу @whubers: вы можете использовать ncvTestфункцию автомобильного пакета для Rпроведения формального теста на гетероскедастичность. В примере whuber команда ncvTest(fit)выдает значение, которое почти равно нулю и дает убедительные доказательства против постоянной дисперсии ошибок (что, конечно, ожидалось). п
COOLSerdash

Ответы:

16

Один из способов подойти к этому вопросу - посмотреть на него с обратной стороны: как мы можем начать с нормально распределенных остатков и расположить их как гетероскедастичные? С этой точки зрения ответ становится очевидным: связать меньшие невязки с меньшими предсказанными значениями.

Для иллюстрации приведем явную конструкцию.

фигура

Данные слева явно гетероскедастичны относительно линейного соответствия (показано красным). Это обусловлено остатками и прогнозируемым участком справа. Но - по построению - неупорядоченный набор остатков близок к нормально распределенному, как показывает их гистограмма в середине. (Значение p в тесте нормальности Шапиро-Уилка равно 0,60, полученное с помощью Rкоманды, выполненной shapiro.test(residuals(fit))после запуска приведенного ниже кода.)

Реальные данные тоже могут выглядеть так. Мораль состоит в том, что гетероскедастичность характеризует отношение между остаточным размером и предсказаниями, тогда как нормальность ничего не говорит нам о том, как эти остатки связаны с чем-то еще.


Вот Rкод для этой конструкции.

set.seed(17)
n <- 256
x <- (1:n)/n                       # The set of x values
e <- rnorm(n, sd=1)                # A set of *normally distributed* values
i <- order(runif(n, max=dnorm(e))) # Put the larger ones towards the end on average
y <- 1 + 5 * x + e[rev(i)]         # Generate some y values plus "error" `e`.
fit <- lm(y ~ x)                   # Regress `y` against `x`.
par(mfrow=c(1,3))                  # Set up the plots ...
plot(x,y, main="Data", cex=0.8)
abline(coef(fit), col="Red")
hist(residuals(fit), main="Residuals")
plot(predict(fit), residuals(fit), cex=0.8, main="Residuals vs. Predicted")
Whuber
источник
2
Итак, вы говорите, что если я связываю низкие остатки с высокими прогнозируемыми значениями, гетероскедастичность может возникнуть, даже если остатки нормально распределены? Я думаю, что у меня есть это, хотя я должен действительно думать больше об этом .. так или иначе спасибо!
Муравей
... или низкие остатки с низкими предсказанными значениями (как в примере здесь), или даже более сложными способами. Например, гетероскедастичность существует, когда средняя величина остатков колеблется с предсказанным значением. (Большинство формальных тестов гетероскедастичности не обнаружат этого, но обычные диагностические графики четко это покажут.)
whuber
0

В регрессии взвешенных наименьших квадратов (WLS), это случайные факторы оценочных невязок, которые вы, возможно, захотите увидеть, как правило, распределены, хотя это часто не очень важно. Предполагаемые невязки могут быть учтены, как показано в простом (один регрессор и через источник) случае регрессии, в нижней части страницы 1 и в нижних половинах страниц 2 и 7 в https://www.researchgate.net/publication / 263036348_Properties_of_Weighted_Least_Squares_Regression_for_Cutoff_Sampling_in_Establishment_Surveys В любом случае, это может помочь показать, где нормальность может войти в картину.

Джим Кнауб
источник
Добро пожаловать на сайт, @JimKnaub. Мы хотели бы, чтобы вы были рядом, чтобы поделиться своим опытом по случайным вопросам. Почему бы не зарегистрировать свой аккаунт? Вы можете узнать, как это сделать в разделе « Моя учетная запись » нашего справочного центра . Поскольку вы новичок здесь, вы можете посетить наш тур , в котором есть информация для новых пользователей.
gung - Восстановить Монику
3
Мы пытаемся создать постоянное хранилище высококачественной статистической информации в форме вопросов и ответов. Таким образом, мы опасаемся ответов, которые зависят от ссылок, из-за linkrot. Можете ли вы опубликовать полную ссылку и краткое изложение информации (например, рисунки / объяснения) по ссылке, чтобы информация оставалась полезной, даже если ссылка не работает?
gung - Восстановить Монику