Почему мы используем остатки для проверки предположений об ошибках в регрессии?

10

Предположим, что у нас есть модель .Yязнак равноβ0+β1Икся1+β2Икся2++βКИксяК+εя

Регрессия имеет ряд допущений, например, что ошибки должны обычно распределяться со средним нулем и постоянной дисперсией. Меня учили проверять эти предположения, используя нормальный график QQ для проверки нормальности остатков и остатков и подогнанного графика, чтобы проверить, что остатки изменяются около нуля с постоянной дисперсией.εяеязнак равноYя-Y^я

Однако все эти тесты основаны на остатках, а не на ошибках.

Из того, что я понимаю, ошибки определяются как отклонение каждого наблюдения от их «истинного» среднего значения. Итак, мы можем написать . Эти ошибки не могут быть обнаружены нами. *εязнак равноYя-Е[Yя]

Мой вопрос заключается в следующем: насколько хорошо работы делают остатки в имитации ошибок?

Если предположения кажутся удовлетворенными по остаточным значениям, означает ли это, что они также удовлетворяются по ошибкам? Существуют ли другие (лучшие) способы проверки допущений, например, подгонка модели к набору данных тестирования и получение оттуда остатков?


* Кроме того, для этого не требуется, чтобы модель была указана правильно ? То есть, что ответ действительно имеет отношение с предикторами т. Д. Способом, указанным моделью.Икс1,Икс2,

Если нам не хватает некоторых предикторов (скажем, ), то ожидание даже не будет истинным средним значением, и дальнейший анализ неверной модели кажется бессмысленным.E [ Y i ] = β 0 + β 1 X i 1 + β 2 X i 2 + + β k X i kXk+1 to XpE[Yi]=β0+β1Xi1+β2Xi2++βkXiК

Как мы проверяем, является ли модель правильной?

маи
источник

Ответы:

9

Остатки являются нашими оценками ошибок

Краткий ответ на этот вопрос относительно прост: предположения в регрессионной модели - это предположения о поведении членов ошибки, а невязки - наши оценки членов ошибки. Таким образом , изучение поведения наблюдаемых остатков говорит нам о том, правдоподобны ли предположения об условиях ошибки.

Чтобы понять эту общую линию рассуждений более подробно, это помогает детально изучить поведение остатков в стандартной регрессионной модели. При стандартной множественной линейной регрессии с независимыми терминами нормальной погрешности гомоскедастика известно распределение остаточного вектора, что позволяет проверить основные предположения о распределении в регрессионной модели. Основная идея состоит в том, что вы вычисляете распределение остаточного вектора при допущениях регрессии, а затем проверяете, соответствуют ли остаточные значения этому теоретическому распределению. Отклонения от теоретического распределения остатков показывают, что предполагаемое распределение ошибочных членов в некотором отношении неверно.

Если используется базовое распределение ошибок ϵiIID N(0,σ2) для стандартной модели регрессии и использовании МНК оценки для коэффициентов, то распределение остатков может быть показано, что многомерное нормальное распределение:

r=(Ih)ϵN(0,σ2(Ih)),

где является шляпной матрицей для регрессии. Остаточный вектор имитирует вектор ошибки, но матрица дисперсии имеет дополнительный мультипликативный член . Для проверки регрессионных допущений мы используем студентизированные остатки, которые имеют предельное Т-распределение:h=x(xTx)1xT I - hIh

siriσ^Ext(1li)T(dfRes1),

(Эта формула предназначена для внештатных ученических остатков, где оценщик отклонений исключает рассматриваемую переменную. Значения являются значениями левереджа, которые являются диагональными значениями в матрице шляп . Студенческие остатки не являются независимые, но если большое, они близки к независимым. Это означает, что предельное распределение является простым известным распределением, но совместное распределение является сложным.) Теперь, если предел существует, тогда можно показать, что оценки коэффициентов являются последовательными оценками истинных коэффициентов регрессии, а остатки являются последовательными оценками Термины истинной ошибки.li=hi,i n lim n ( x T x ) / n = Δnlimn(xTx)/n=Δ

По сути, это означает, что вы проверяете базовые предположения распределения для условий ошибки, сравнивая обученные остатки с T-распределением. Каждое из лежащих в основе свойств распределения ошибок (линейность, гомоскедастичность, некоррелированные ошибки, нормальность) может быть проверено с использованием аналогичных свойств распределения обучаемых остатков. Если модель задана правильно, то для больших остатки должны быть близки к истинным членам ошибки, и они имеют подобную форму распределения.n

Пропуск пояснительной переменной из регрессионной модели приводит к отсутствию смещения переменной в оценках коэффициента, и это влияет на остаточное распределение. На среднее значение и дисперсию остаточного вектора влияет пропущенная переменная. Если в регрессии пропущены термины то остаточный вектор становится . Если векторы данных в пропущенной матрице являются нормальными векторами IID и не зависят от членов ошибки, тоZδr=(Ih)(Zδ+ϵ)ZZδ+ϵN(μ1,σ2I) так что остаточное распределение становится:

r=(Ih)(Zδ+ϵ)N(μ(Ih)1,σ2(Ih)).

Если в модели уже есть член-перехват (т. Если единичный вектор находится в проектной матрице), то1(Ih)1=0, что означает, что стандартная форма распределения остатков сохраняется. Если в модели отсутствует член перехвата, тогда пропущенная переменная может дать ненулевое среднее для остатков. Альтернативно, если пропущенная переменная не является нормальным IID, это может привести к другим отклонениям от стандартного остаточного распределения. В этом последнем случае остаточные тесты вряд ли обнаружат что-либо в результате наличия пропущенной переменной; обычно невозможно определить, происходят ли отклонения от теоретического остаточного распределения в результате пропущенной переменной или просто из-за некорректной связи с включенными переменными (и, возможно, это одно и то же в любом случае).

Бен - Восстановить Монику
источник
1
Спасибо за исчерпывающий ответ. Могу ли я спросить, где вы получили ? Мне кажется, что г = Y - Y = ( я - ч ) Yr=(Ih)ϵr=YY^=(Ih)Y
май
1
Поскольку вас есть так что .hx=x(Ih)x=0r=(Ih)Y=(Ih)(xβ+ϵ)=(Ih)ϵ
Бен - Восстановить Монику
-4

Обычно термины «остатки» и «ошибки» означают одно и то же. Если в вашей модели нет предикторов, E (Y) - это действительно среднее значение Y. Для предикторов (как в вашей модели) E (Y) - это значение Y, прогнозируемое по каждому X. Таким образом, остатки - это разница между каждым наблюдаемым и предсказал Y.

Тим Бедналл
источник
3
«Обычно термины остатки и ошибки означают одно и то же». Я не думаю, что это правда - насколько я понимаю, остатки измеряют разницу между наблюдаемым значением и прогнозируемым значением, в то время как ошибки измеряют разницу между наблюдаемым значением и истинным средним значением.
мая
1
Строго говоря, ошибки и остатки не являются синонимами. Первые являются случайными величинами, вторые являются реализациями.
Ричард Харди