Рассмотрим следующую фигуру из линейных моделей Faraway с R (2005, стр. 59).
Первый график, по-видимому, указывает на то, что остатки и подогнанные значения некоррелированы, поскольку они должны быть в гомоскедастической линейной модели с нормально распределенными ошибками. Поэтому второй и третий графики, которые, кажется, указывают на зависимость между невязками и подобранными значениями, предлагают другую модель.
Но почему второй график предполагает, как отмечает Фарауэй, гетероскедастическую линейную модель, в то время как третий график предлагает нелинейную модель?
Второй график, по-видимому, указывает на то, что абсолютное значение остатков сильно положительно коррелирует с подобранными значениями, тогда как на третьем графике такой тенденции не наблюдается. Так что если бы это было так, теоретически, в гетероскедастической линейной модели с нормально распределенными ошибками
(где выражение слева представляет собой матрицу дисперсии-ковариации между невязками и подобранными значениями), это объясняет, почему второй и третий графики согласуются с интерпретациями Faraway.
Но так ли это? Если нет, то как еще могут быть оправданы интерпретации Faraway второго и третьего сюжетов? Кроме того, почему третий график обязательно указывает на нелинейность? Возможно ли, что она линейна, но ошибки либо не распределены нормально, либо распределены нормально, но не центрированы вокруг нуля?
Ответы:
Ниже приведены те остаточные графики с приблизительным средним и разбросом точек (пределов, включающих большинство значений) при каждом значении подогнанного (и, следовательно, ), отмеченного в грубом приближении с указанием условного среднего (красного) и условного среднего (примерно!) вдвое больше условного стандартного отклонения (фиолетовый):x ±
На втором графике показано, что средний остаток не изменяется с установленными значениями (и поэтому не изменяется с ), но разброс остатков (и, следовательно, значений относительно подобранной линии) увеличивается по мере того, как измененные значения (или ). То есть спред не постоянен. Гетероскедастичности.x y x
третий график показывает, что остатки в основном отрицательные, когда установленное значение мало, положительные, когда установленное значение находится посередине, и отрицательные, когда установленное значение велико. То есть разброс приблизительно постоянен, а условное среднее - нет - подгоночная линия не описывает, как ведет себя при изменении , поскольку отношение искривлено.y x
Не совсем *, в этих ситуациях графики выглядят иначе, чем третьи.
(i) Если бы ошибки были нормальными, но не по центру в нуле, а , скажем, в , то при пересечении будет определена средняя ошибка, и поэтому предполагаемый перехват будет оценкой (которая будет его ожидаемое значение, но оно оценивается с ошибкой). Следовательно, ваши остатки все равно будут иметь условный средний ноль, и поэтому график будет выглядеть как первый график выше.θ β0+θ
(ii) Если ошибки обычно не распределяются, образец точек может быть плотнее где-нибудь, кроме центральной линии (если данные были искажены), скажем, но локальный средний остаток будет по-прежнему около 0.
Здесь фиолетовые линии все еще представляют (очень) примерно 95% интервал, но он больше не симметричен. (Я закрываю пару вопросов, чтобы не затенять основную мысль здесь.)
* Это не обязательно невозможно - если у вас есть термин «ошибка», который на самом деле не ведет себя как ошибки - скажем, где и связаны с ними правильным образом - вы можете создавать шаблоны, подобные этим. Тем не менее, мы делаем предположения о члене ошибки, например, что он не связан с , например, и имеет нулевое среднее значение; нам бы пришлось нарушить хотя бы некоторые из этих предположений, чтобы сделать это. (Во многих случаях у вас может быть причина сделать вывод, что такие эффекты должны отсутствовать или, по крайней мере, относительно незначительны.)x y x
источник
Вы написали
Это не "кажется", это так. И это то, что означает гетероскедастик.
Затем вы даете матрицу всех 1, что не имеет значения; корреляция может существовать и быть меньше 1.
Потом пишешь
Они центрируются около 0. Половина ниже 0, половина выше. Труднее сказать, нормально ли они распределены на этом графике, но обычно рекомендуется другой график - квантильный нормальный график остатков, который показывает, являются ли они нормальными или нет.
источник