В простой линейной регрессии, откуда берется формула для дисперсии остатков?

Интуиция о знаках «плюс», связанных с дисперсией (из того факта, что даже когда мы вычисляем дисперсию разности независимых случайных величин, мы добавляем их дисперсии), правильна, но фатально неполна: если задействованные случайные переменные не являются независимыми тогда также участвуют ковариации - и ковариации могут быть отрицательными. Существует выражение, которое почти похоже на то, что выражение в вопросе считалось, что оно «должно» быть у ОП (и у меня), и это дисперсия ошибки предсказания , обозначаем ее , где : $e^0 = y^0 - \hat y^0$ $y^0 = \beta_0+\beta_1x^0+u^0$

Var (e^{0}) = σ^{2} \cdot (1 + \frac{1}{n} + \frac{(x^{0} - \bar{x})^{2}}{S_{x x}})

$\text{Var}(e^0) = \sigma^2\cdot \left(1 + \frac 1n + \frac {(x^0-\bar x)^2}{S_{xx}}\right)$

Критическая разница между дисперсией ошибки предсказания и дисперсией оценки погрешности (т.е. невязки), является то , что этот термин ошибки предсказанного наблюдения не коррелирует с оценкой , так как значение были не используются в построение оценщика и вычисление оценок, являющихся значением вне выборки. $y^0$

Алгебра для обоих продолжается точно до точки (используя вместо ), но затем расходится. В частности: $^0$ $_i$

В простой линейной регрессии , , дисперсия оценки прежнему $y_i = \beta_0 + \beta_1x_i + u_i$ $\text{Var}(u_i)=\sigma^2$ $\hat \beta = (\hat \beta_0, \hat \beta_1)'$

Var (\hat{β}) = σ^{2} {(X^{'} X)}^{- 1}

$\text{Var}(\hat \beta) = \sigma^2 \left(\mathbf X' \mathbf X\right)^{-1}$

У нас есть

X^{'} X = [\begin{matrix} n & \sum x_{i} \\ \sum x_{i} & \sum x_{i}^{2} \end{matrix}]

$\mathbf X' \mathbf X= \left[ \begin{matrix} n & \sum x_i\\ \sum x_i & \sum x_i^2 \end{matrix}\right]$

и так

{({Икс}^{'} Икс)}^{- 1} знак равно [\begin{matrix} Σ {Икс}_{я}^{2} & - Σ {Икс}_{я} \\ - Σ {Икс}_{я} & N \end{matrix}] \cdot {[N Σ {Икс}_{я}^{2} - {(Σ {Икс}_{я})}^{2}]}^{- 1}

$\left(\mathbf X' \mathbf X\right)^{-1}= \left[ \begin{matrix} \sum x_i^2 & -\sum x_i\\ -\sum x_i & n \end{matrix}\right]\cdot \left[n\sum x_i^2-\left(\sum x_i\right)^2\right]^{-1}$

У нас есть

[N Σ {Икс}_{я}^{2} - {(Σ {Икс}_{я})}^{2}] знак равно [N Σ {Икс}_{я}^{2} - N^{2} {\bar{Икс}}^{2}] знак равно N [Σ {Икс}_{я}^{2} - N {\bar{Икс}}^{2}] знак равно N Σ ({Икс}_{я}^{2} - {\bar{Икс}}^{2}) \equiv N S_{Икс Икс}

$\left[n\sum x_i^2-\left(\sum x_i\right)^2\right] = \left[n\sum x_i^2-n^2\bar x^2\right] = n\left[\sum x_i^2-n\bar x^2\right] \\= n\sum (x_i^2-\bar x^2) \equiv nS_{xx}$

Так

{({Икс}^{'} Икс)}^{- 1} знак равно [\begin{matrix} (1 / N) Σ {Икс}_{я}^{2} & - \bar{Икс} \\ - \bar{Икс} & 1 \end{matrix}] \cdot (1 / S_{Икс Икс})

$\left(\mathbf X' \mathbf X\right)^{-1}= \left[ \begin{matrix} (1/n)\sum x_i^2 & -\bar x\\ -\bar x & 1 \end{matrix}\right]\cdot (1/S_{xx})$

что обозначает

Var ({\hat{β}}_{0}) знак равно σ^{2} (\frac{1}{N} Σ {Икс}_{я}^{2}) \cdot (1 / S_{Икс Икс}) знак равно \frac{σ^{2}}{N} \frac{S_{Икс Икс} + N {\bar{Икс}}^{2}}{S_{Икс Икс}} знак равно σ^{2} (\frac{1}{N} + \frac{{\bar{Икс}}^{2}}{S_{Икс Икс}})

$\text{Var}(\hat \beta_0) = \sigma^2\left(\frac 1n\sum x_i^2\right)\cdot \ (1/S_{xx}) = \frac {\sigma^2}{n}\frac{S_{xx}+n\bar x^2} {S_{xx}} = \sigma^2\left(\frac 1n + \frac{\bar x^2} {S_{xx}}\right)$

Var ({\hat{β}}_{1}) знак равно σ^{2} (1 / S_{Икс Икс})

$\text{Var}(\hat \beta_1) = \sigma^2(1/S_{xx})$

Cov ({\hat{β}}_{0}, {\hat{β}}_{1}) = - σ^{2} (\bar{x} / S_{x x})

$\text{Cov}(\hat \beta_0,\hat \beta_1) = -\sigma^2(\bar x/S_{xx})$

-й остаточный определяются как $i$

{\hat{u}}_{i} = y_{i} - {\hat{y}}_{i} = (β_{0} - {\hat{β}}_{0}) + (β_{1} - {\hat{β}}_{1}) x_{i} + u_{i}

$\hat u_i = y_i - \hat y_i = (\beta_0 - \hat \beta_0) + (\beta_1 - \hat \beta_1)x_i +u_i$

Фактические коэффициенты рассматриваются как константы, то регрессор фиксируются (или зависимость от него), и имеют нулевую ковариацию с ошибкой, но эти оценщики коррелируют с ошибкой, потому что оценщики содержат зависимые переменные, и зависимые переменные содержит термин ошибки. Итак, мы имеем

Var ({\hat{u}}_{i}) = [Var (u_{i}) + Var ({\hat{β}}_{0}) + x_{i}^{2} Var ({\hat{β}}_{1}) + 2 x_{i} Cov ({\hat{β}}_{0}, {\hat{β}}_{1})] + 2 Cov ([(β_{0} - {\hat{β}}_{0}) + (β_{1} - {\hat{β}}_{1}) x_{i}], u_{i})

$\text{Var}(\hat u_i) = \Big[\text{Var}(u_i)+\text{Var}(\hat \beta_0)+x_i^2\text{Var}(\hat \beta_1)+2x_i\text{Cov}(\hat \beta_0,\hat \beta_1)\Big] + 2\text{Cov}([(\beta_0 - \hat \beta_0) + (\beta_1 - \hat \beta_1)x_i],u_i)$

= [σ^{2} + σ^{2} (\frac{1}{n} + \frac{{\bar{x}}^{2}}{S_{x x}}) + x_{i}^{2} σ^{2} (1 / S_{x x}) + 2 Cov ([(β_{0} - {\hat{β}}_{0}) + (β_{1} - {\hat{β}}_{1}) x_{i}], u_{i})

$=\Big[\sigma^2 + \sigma^2\left(\frac 1n + \frac{\bar x^2} {S_{xx}}\right) + x_i^2\sigma^2(1/S_{xx}) +2\text{Cov}([(\beta_0 - \hat \beta_0) + (\beta_1 - \hat \beta_1)x_i],u_i)$

Соберись немного, чтобы получить

Var ({\hat{u}}_{i}) = [σ^{2} \cdot (1 + \frac{1}{n} + \frac{(x_{i} - \bar{x})^{2}}{S_{x x}})] + 2 Cov ([(β_{0} - {\hat{β}}_{0}) + (β_{1} - {\hat{β}}_{1}) x_{i}], u_{i})

$\text{Var}(\hat u_i)=\left[\sigma^2\cdot \left(1 + \frac 1n + \frac {(x_i-\bar x)^2}{S_{xx}}\right)\right]+ 2\text{Cov}([(\beta_0 - \hat \beta_0) + (\beta_1 - \hat \beta_1)x_i],u_i)$

Термин в больших круглых скобках имеет точно такую же структуру, что и дисперсия ошибки предсказания, с единственным изменением в том, что вместо у нас будет (а дисперсия будет равна а не ). Последний член ковариации равен нуль для ошибки предсказания , потому что и , следовательно является не включен в оценках, но не равно нуль погрешности оценки , так и , следовательно является частью образца и поэтому он включен в оценщик. У нас есть $x_i$ $x^0$ $e^0$ $\hat u_i$ $y^0$ $u^0$ $y_i$ $u_i$

2 Cov ([(β_{0} - {\hat{β}}_{0}) + (β_{1} - {\hat{β}}_{1}) {Икс}_{я}], U_{я}) знак равно 2 Е ([(β_{0} - {\hat{β}}_{0}) + (β_{1} - {\hat{β}}_{1}) {Икс}_{я}] U_{я})

$2\text{Cov}([(\beta_0 - \hat \beta_0) + (\beta_1 - \hat \beta_1)x_i],u_i) = 2E\left([(\beta_0 - \hat \beta_0) + (\beta_1 - \hat \beta_1)x_i]u_i\right)$

знак равно - 2 Е ({\hat{β}}_{0} U_{я}) - 2 {Икс}_{я} Е ({\hat{β}}_{1} U_{я}) знак равно - 2 Е ([\bar{Y} - {\hat{β}}_{1} \bar{Икс}] U_{я}) - 2 {Икс}_{я} Е ({\hat{β}}_{1} U_{я})

$=-2E\left(\hat \beta_0u_i\right)-2x_iE\left(\hat \beta_1u_i\right) = -2E\left([\bar y -\hat \beta_1 \bar x]u_i\right)-2x_iE\left(\hat \beta_1u_i\right)$

последняя замена от того, как вычисляется . Продолжая, $\hat \beta_0$

,,, знак равно - 2 Е (\bar{Y} U_{я}) - 2 ({Икс}_{я} - \bar{Икс}) Е ({\hat{β}}_{1} U_{я}) знак равно - 2 \frac{σ^{2}}{N} - 2 ({Икс}_{я} - \bar{Икс}) Е [\frac{Σ ({Икс}_{я} - \bar{Икс}) (Y_{я} - \bar{Y})}{S_{Икс Икс}} U_{я}]

$...=-2E(\bar yu_i) -2(x_i-\bar x)E\left(\hat \beta_1u_i\right) = -2\frac {\sigma^2}{n} -2(x_i-\bar x)E\left[\frac {\sum(x_i-\bar x)(y_i-\bar y)}{S_{xx}}u_i\right]$

знак равно - 2 \frac{σ^{2}}{N} - 2 \frac{({Икс}_{я} - \bar{Икс})}{S_{Икс Икс}} [Σ ({Икс}_{я} - \bar{Икс}) Е (Y_{я} U_{я} - \bar{Y} U_{я})]

$=-2\frac {\sigma^2}{n} -2\frac {(x_i-\bar x)}{S_{xx}}\left[ \sum(x_i-\bar x)E(y_iu_i-\bar yu_i)\right]$

знак равно - 2 \frac{σ^{2}}{N} - 2 \frac{({Икс}_{я} - \bar{Икс})}{S_{Икс Икс}} [- \frac{σ^{2}}{N} \underset{J \neq я}{Σ} ({Икс}_{J} - \bar{Икс}) + ({Икс}_{я} - \bar{Икс}) σ^{2} (1 - \frac{1}{N})]

$=-2\frac {\sigma^2}{n} -2\frac {(x_i-\bar x)}{S_{xx}}\left[ -\frac {\sigma^2}{n}\sum_{j\neq i}(x_j-\bar x) + (x_i-\bar x)\sigma^2(1-\frac 1n)\right]$

знак равно - 2 \frac{σ^{2}}{N} - 2 \frac{({Икс}_{я} - \bar{Икс})}{S_{Икс Икс}} [- \frac{σ^{2}}{N} Σ ({Икс}_{я} - \bar{Икс}) + ({Икс}_{я} - \bar{Икс}) σ^{2}]

$=-2\frac {\sigma^2}{n}-2\frac {(x_i-\bar x)}{S_{xx}}\left[ -\frac {\sigma^2}{n}\sum(x_i-\bar x) + (x_i-\bar x)\sigma^2\right]$

знак равно - 2 \frac{σ^{2}}{N} - 2 \frac{({Икс}_{я} - \bar{Икс})}{S_{Икс Икс}} [0 + ({Икс}_{я} - \bar{Икс}) σ^{2}] знак равно - 2 \frac{σ^{2}}{N} - 2 σ^{2} \frac{({Икс}_{я} - \bar{Икс})^{2}}{S_{Икс Икс}}

$=-2\frac {\sigma^2}{n}-2\frac {(x_i-\bar x)}{S_{xx}}\left[ 0 + (x_i-\bar x)\sigma^2\right] = -2\frac {\sigma^2}{n}-2\sigma^2\frac {(x_i-\bar x)^2}{S_{xx}}$

Подставляя это в выражение для дисперсии остатка, получим

Var ({\hat{U}}_{я}) знак равно σ^{2} \cdot (1 - \frac{1}{N} - \frac{({Икс}_{я} - \bar{Икс})^{2}}{S_{Икс Икс}})

$\text{Var}(\hat u_i)=\sigma^2\cdot \left(1 - \frac 1n - \frac {(x_i-\bar x)^2}{S_{xx}}\right)$

Так что снимаю шляпу перед текстом, который использует ОП.

(Я пропустил некоторые алгебраические манипуляции, неудивительно, что алгебре МЖС учат все меньше и меньше в наши дни ...)

НЕКОТОРЫЕ ИНТУИЦИИ

Таким образом, получается, что то, что работает "против" нас (большая дисперсия) при прогнозировании, работает "для нас" (более низкая дисперсия) при оценке. Это хорошая отправная точка для размышления, почему отличная подгонка может быть плохим признаком для предсказательных способностей модели (как бы нелогично это ни звучало ...).
Тот факт, что мы оцениваем ожидаемое значение регрессора, уменьшает дисперсию на . Почему? потому что, оценивая , мы «закрываем глаза» на некоторую изменчивость ошибок, существующую в выборке, поскольку мы по существу оцениваем ожидаемое значение. Более того, чем больше отклонение наблюдения регрессора от среднего значения выборки регрессора, $1/n$ дисперсия остатка, связанного с этим наблюдением, будет ... чем более отклоняющееся наблюдение, тем менее отклоняющимся является его остаток ... переменность регрессоров, которая работает для нас, "занимая место" неизвестной ошибки - изменчивость.

Но это хорошо для оценки . Что касается предсказания , то же самое оборачивается против нас: теперь, не принимая во внимание, хотя и несовершенно, изменчивость (поскольку мы хотим ее предсказать), наши несовершенные оценки, полученные из выборки, показывают их слабые стороны: мы оценили выборка означает, что мы не знаем истинного ожидаемого значения - дисперсия увеличивается. У нас есть который находится далеко от среднего значения выборки, рассчитанного по другим наблюдениям - слишком плохо, наша дисперсия ошибки предсказания получает еще один импульс, потому что предсказанный будет иметь тенденцию отклоняться ... в более научный язык "оптимальные предикторы в смысле уменьшения ошибки прогнозирования, представляют собой $y^0$ $x^0$ $\hat y^0$ сужение к среднему значению предсказываемой переменной ". Мы не пытаемся копировать изменчивость зависимой переменной - мы просто стараемся оставаться" близко к среднему ".

Алекос Пападопулос
источник

Спасибо за очень четкий ответ! Я рад, что моя «интуиция» была правильной.

Эрик

Алекос, я действительно не думаю, что это правильно.

Glen_b

@ Алекос, ошибка заключается в том, что оценки параметров не соотносятся с ошибкой. Эта часть: не правильно.

Var ({\hat{u}}_{i}) = Var (u_{i}) + Var ({\hat{β}}_{0}) + x_{i}^{2} Var ({\hat{β}}_{1}) + 2 x_{i} Cov ({\hat{β}}_{0}, {\hat{β}}_{1})

$\text{Var}(\hat u_i) = \text{Var}(u_i)+\text{Var}(\hat \beta_0)+x_i^2\text{Var}(\hat \beta_1)+2x_i\text{Cov}(\hat \beta_0,\hat \beta_1)$

Glen_b

@Eric Я прошу прощения за то, что ввел вас в заблуждение ранее. Я попытался дать некоторую интуицию для обеих формул.

Алекос Пападопулос

+1 Вы можете понять, почему я сделал случай множественной регрессии для этого ... спасибо, что приложили дополнительные усилия для выполнения случая простой регрессии.

Glen_b

В простой линейной регрессии, откуда берется формула для дисперсии остатков?

Ответы: