10

Предположим, что у нас есть модель . $Y_i = \beta_0 + \beta_1X_{i1} + \beta_2X_{i2} + \dots + \beta_kX_{ik} + \epsilon_i$

Регрессия имеет ряд допущений, например, что ошибки должны обычно распределяться со средним нулем и постоянной дисперсией. Меня учили проверять эти предположения, используя нормальный график QQ для проверки нормальности остатков и остатков и подогнанного графика, чтобы проверить, что остатки изменяются около нуля с постоянной дисперсией. $\epsilon_i$ $e_i = Y_i - \hat{Y}_i$

Однако все эти тесты основаны на остатках, а не на ошибках.

Из того, что я понимаю, ошибки определяются как отклонение каждого наблюдения от их «истинного» среднего значения. Итак, мы можем написать . Эти ошибки не могут быть обнаружены нами. * $\epsilon_i = Y_i - \mathbb{E}[Y_i]$

Мой вопрос заключается в следующем: насколько хорошо работы делают остатки в имитации ошибок?

Если предположения кажутся удовлетворенными по остаточным значениям, означает ли это, что они также удовлетворяются по ошибкам? Существуют ли другие (лучшие) способы проверки допущений, например, подгонка модели к набору данных тестирования и получение оттуда остатков?

* Кроме того, для этого не требуется, чтобы модель была указана правильно ? То есть, что ответ действительно имеет отношение с предикторами т. Д. Способом, указанным моделью. $X_1, X_2,$

Если нам не хватает некоторых предикторов (скажем, ), то ожидание даже не будет истинным средним значением, и дальнейший анализ неверной модели кажется бессмысленным. $X_{k+1}\ \text{to}\ X_p$ $\mathbb{E}[Y_i] = \beta_0 + \beta_1X_{i1} + \beta_2X_{i2} + \dots + \beta_kX_{ik}$

Как мы проверяем, является ли модель правильной?

regression residuals error маи
источник

9

Остатки являются нашими оценками ошибок

Краткий ответ на этот вопрос относительно прост: предположения в регрессионной модели - это предположения о поведении членов ошибки, а невязки - наши оценки членов ошибки. Таким образом , изучение поведения наблюдаемых остатков говорит нам о том, правдоподобны ли предположения об условиях ошибки.

Чтобы понять эту общую линию рассуждений более подробно, это помогает детально изучить поведение остатков в стандартной регрессионной модели. При стандартной множественной линейной регрессии с независимыми терминами нормальной погрешности гомоскедастика известно распределение остаточного вектора, что позволяет проверить основные предположения о распределении в регрессионной модели. Основная идея состоит в том, что вы вычисляете распределение остаточного вектора при допущениях регрессии, а затем проверяете, соответствуют ли остаточные значения этому теоретическому распределению. Отклонения от теоретического распределения остатков показывают, что предполагаемое распределение ошибочных членов в некотором отношении неверно.

Если используется базовое распределение ошибок $\epsilon_i \sim \text{IID N}(0, \sigma^2)$ для стандартной модели регрессии и использовании МНК оценки для коэффициентов, то распределение остатков может быть показано, что многомерное нормальное распределение:

r = (I - h) ϵ \sim N (0, σ^{2} (I - h)),

$\boldsymbol{r} = (\boldsymbol{I} - \boldsymbol{h}) \boldsymbol{\epsilon} \sim \text{N}(\boldsymbol{0}, \sigma^2 (\boldsymbol{I} - \boldsymbol{h})),$

где является шляпной матрицей для регрессии. Остаточный вектор имитирует вектор ошибки, но матрица дисперсии имеет дополнительный мультипликативный член . Для проверки регрессионных допущений мы используем студентизированные остатки, которые имеют предельное Т-распределение: $\boldsymbol{h} = \boldsymbol{x} (\boldsymbol{x}^{\text{T}} \boldsymbol{x})^{-1} \boldsymbol{x}^{\text{T}}$ $\boldsymbol{I} - \boldsymbol{h}$

s_{i} \equiv \frac{r_{i}}{{\hat{σ}}_{Ext} \cdot (1 - l_{i})} \sim T ({df}_{Res} - 1),

$s_i \equiv \frac{r_i}{\hat{\sigma}_{\text{Ext}} \cdot (1-l_i)} \sim \text{T}(\text{df}_{\text{Res}}-1).$

(Эта формула предназначена для внештатных ученических остатков, где оценщик отклонений исключает рассматриваемую переменную. Значения являются значениями левереджа, которые являются диагональными значениями в матрице шляп . Студенческие остатки не являются независимые, но если большое, они близки к независимым. Это означает, что предельное распределение является простым известным распределением, но совместное распределение является сложным.) Теперь, если предел существует, тогда можно показать, что оценки коэффициентов являются последовательными оценками истинных коэффициентов регрессии, а остатки являются последовательными оценками Термины истинной ошибки. $l_i = h_{i,i}$ $n$ $\lim_{n \rightarrow \infty} (\boldsymbol{x}^{\text{T}} \boldsymbol{x}) / n = \Delta$

По сути, это означает, что вы проверяете базовые предположения распределения для условий ошибки, сравнивая обученные остатки с T-распределением. Каждое из лежащих в основе свойств распределения ошибок (линейность, гомоскедастичность, некоррелированные ошибки, нормальность) может быть проверено с использованием аналогичных свойств распределения обучаемых остатков. Если модель задана правильно, то для больших остатки должны быть близки к истинным членам ошибки, и они имеют подобную форму распределения. $n$

Пропуск пояснительной переменной из регрессионной модели приводит к отсутствию смещения переменной в оценках коэффициента, и это влияет на остаточное распределение. На среднее значение и дисперсию остаточного вектора влияет пропущенная переменная. Если в регрессии пропущены термины то остаточный вектор становится . Если векторы данных в пропущенной матрице являются нормальными векторами IID и не зависят от членов ошибки, то $\boldsymbol{Z} \boldsymbol{\delta}$ $\boldsymbol{r} = (\boldsymbol{I} - \boldsymbol{h}) (\boldsymbol{Z \delta} + \boldsymbol{\epsilon})$ $\boldsymbol{Z}$ $\boldsymbol{Z \delta} + \boldsymbol{\epsilon} \sim \text{N} (\mu \boldsymbol{1}, \sigma_*^2 \boldsymbol{I})$ так что остаточное распределение становится:

r = (I - h) (Z δ + ϵ) \sim N (μ (I - h) 1, σ_{*}^{2} (I - h)) .

$\boldsymbol{r} = (\boldsymbol{I} - \boldsymbol{h}) (\boldsymbol{Z \delta} + \boldsymbol{\epsilon}) \sim \text{N} \Big( \mu (\boldsymbol{I} - \boldsymbol{h}) \boldsymbol{1}, \sigma_*^2 (\boldsymbol{I} - \boldsymbol{h}) \Big).$

Если в модели уже есть член-перехват (т. Если единичный вектор находится в проектной матрице), то $\boldsymbol{1}$ $(\boldsymbol{I} - \boldsymbol{h}) \boldsymbol{1} = \boldsymbol{0}$ , что означает, что стандартная форма распределения остатков сохраняется. Если в модели отсутствует член перехвата, тогда пропущенная переменная может дать ненулевое среднее для остатков. Альтернативно, если пропущенная переменная не является нормальным IID, это может привести к другим отклонениям от стандартного остаточного распределения. В этом последнем случае остаточные тесты вряд ли обнаружат что-либо в результате наличия пропущенной переменной; обычно невозможно определить, происходят ли отклонения от теоретического остаточного распределения в результате пропущенной переменной или просто из-за некорректной связи с включенными переменными (и, возможно, это одно и то же в любом случае).

Бен - Восстановить Монику
источник

1

Спасибо за исчерпывающий ответ. Могу ли я спросить, где вы получили ? Мне кажется, что

r = (I - h) ϵ

$r=(I−h)ϵ$

r = Y - \hat{Y} = (I - h) Y

$r=Y-\hat{Y}=(I-h)Y$

май

1

Поскольку вас есть так что .

h x = x

$\boldsymbol{h} \boldsymbol {x} = \boldsymbol {x}$

(I - h) x = 0

$(\boldsymbol {I} - \boldsymbol {h}) \boldsymbol {x} = \boldsymbol {0}$

r = (I - h) Y = (I - h) (x β + ϵ) = (I - h) ϵ

$\boldsymbol {r} = (\boldsymbol {I} - \boldsymbol {h}) \boldsymbol {Y} = (\boldsymbol {I} - \boldsymbol {h}) (\boldsymbol {x} \boldsymbol {\beta} + \boldsymbol {\epsilon} ) = (\boldsymbol {I} - \boldsymbol {h}) \boldsymbol {\epsilon}$

Бен - Восстановить Монику

-4

Обычно термины «остатки» и «ошибки» означают одно и то же. Если в вашей модели нет предикторов, E (Y) - это действительно среднее значение Y. Для предикторов (как в вашей модели) E (Y) - это значение Y, прогнозируемое по каждому X. Таким образом, остатки - это разница между каждым наблюдаемым и предсказал Y.

Тим Бедналл
источник

3

«Обычно термины остатки и ошибки означают одно и то же». Я не думаю, что это правда - насколько я понимаю, остатки измеряют разницу между наблюдаемым значением и прогнозируемым значением, в то время как ошибки измеряют разницу между наблюдаемым значением и истинным средним значением.

мая

1

Строго говоря, ошибки и остатки не являются синонимами. Первые являются случайными величинами, вторые являются реализациями.

Ричард Харди

Почему мы используем остатки для проверки предположений об ошибках в регрессии?

Ответы:

Остатки являются нашими оценками ошибок