В методе наименьших квадратов мы хотим оценить неизвестные параметры в модели:
Как только мы это сделаем (для некоторых наблюдаемых значений), мы получим подогнанную линию регрессии:
Теперь очевидно, что мы хотим проверить некоторые графики, чтобы убедиться, что предположения выполнены. Предположим, вы хотите проверить гомоскедастичность, однако для этого мы фактически проверяем невязки . Допустим, вы изучаете график зависимости остаточных и прогнозируемых значений, если это показывает нам, что гетероскедастичность очевидна, то как это связано с нарушением ? Означает ли гетероскедастичность в остатках гетероскедастичность в терминах возмущений? ε j
Отношения между и : ; & epsiε^ ε
где , матрица шляпы, является .X ( X T X ) - 1 X TЧАС Икс( ХTИкс)- 1ИксT
То есть - это линейная комбинация всех ошибок, но обычно большая часть веса приходится на ую.яε^я я
Вот пример использования
cars
набора данных в R. Рассмотрим точку, отмеченную фиолетовым:Давайте назовем это пунктом . Остаток, , где для других ошибок находится в области -0,02:ε я ≈ 0,98 ε я + Σ J ≠ я ж J ε J ш Jя ε^я≈ 0,98 εя+ ∑J ≠ явесJεJ весJ
Мы можем переписать это как:
или в более общем плане
где является -й диагональный элемент . Точно так же, выше - это .чася я я ЧАС весJ чася ж
Если ошибки имеют значение то в этом примере взвешенная сумма этих других ошибок будет иметь стандартное отклонение, соответствующее примерно 1/7 влияния ошибки го наблюдения на ее остаток ,N( 0 , σ2) я
То есть, в регрессиях с хорошим поведением остатки в большинстве случаев можно рассматривать как умеренно шумную оценку ненаблюдаемого члена ошибки. По мере того, как мы рассматриваем точки дальше от центра, все работает несколько менее красиво (остаток становится менее взвешенным для ошибки, а веса для других ошибок становятся менее равномерными).
Со многими параметрами, или с , не так хорошо распределенными, остатки могут быть намного меньше как ошибки. Вы можете попробовать несколько примеров.Икс
источник