Полагаю, у меня неплохая линейная регрессия (это для университетского проекта, поэтому мне не нужно быть очень точным).
Дело в том, что если я построю график зависимости остатков от прогнозируемых значений, то (по словам моего учителя) есть намек на гетероскедастичность.
Но если я нанесу QQ-график остатков, ясно, что они нормально распределены. Более того, тест Шапиро на невязках имеет значение , так что я думаю, что нет сомнений, что остатки на самом деле нормально распределены.
Вопрос: Как может быть гетероскедастичность по прогнозируемым значениям, если остатки нормально распределены?
ncvTest
функцию автомобильного пакета дляR
проведения формального теста на гетероскедастичность. В примере whuber командаncvTest(fit)
выдает значение, которое почти равно нулю и дает убедительные доказательства против постоянной дисперсии ошибок (что, конечно, ожидалось).Ответы:
Один из способов подойти к этому вопросу - посмотреть на него с обратной стороны: как мы можем начать с нормально распределенных остатков и расположить их как гетероскедастичные? С этой точки зрения ответ становится очевидным: связать меньшие невязки с меньшими предсказанными значениями.
Для иллюстрации приведем явную конструкцию.
Данные слева явно гетероскедастичны относительно линейного соответствия (показано красным). Это обусловлено остатками и прогнозируемым участком справа. Но - по построению - неупорядоченный набор остатков близок к нормально распределенному, как показывает их гистограмма в середине. (Значение p в тесте нормальности Шапиро-Уилка равно 0,60, полученное с помощью
R
команды, выполненнойshapiro.test(residuals(fit))
после запуска приведенного ниже кода.)Реальные данные тоже могут выглядеть так. Мораль состоит в том, что гетероскедастичность характеризует отношение между остаточным размером и предсказаниями, тогда как нормальность ничего не говорит нам о том, как эти остатки связаны с чем-то еще.
Вот
R
код для этой конструкции.источник
В регрессии взвешенных наименьших квадратов (WLS), это случайные факторы оценочных невязок, которые вы, возможно, захотите увидеть, как правило, распределены, хотя это часто не очень важно. Предполагаемые невязки могут быть учтены, как показано в простом (один регрессор и через источник) случае регрессии, в нижней части страницы 1 и в нижних половинах страниц 2 и 7 в https://www.researchgate.net/publication / 263036348_Properties_of_Weighted_Least_Squares_Regression_for_Cutoff_Sampling_in_Establishment_Surveys В любом случае, это может помочь показать, где нормальность может войти в картину.
источник