В простой линейной регрессии, откуда берется формула для дисперсии остатков?

21

Согласно тексту, который я использую, формула для дисперсии остатка определяется как:ith

σ2(11n(xix¯)2Sxx)

Я нахожу это трудно поверить , так как остаточная разница между наблюдаемым значением и подогнанной значения; если бы вычислить дисперсию разницы, по крайней мере я бы ожидал некоторых «плюсов» в результирующем выражении. Любая помощь в понимании происхождения будет принята с благодарностью.ithithith

Эрик
источник
Возможно ли, что некоторые знаки « » в тексте неправильно отображаются (или неправильно читаются) как знаки « »? +
whuber
Я думал об этом, но это произошло дважды в тексте (2 разных главы), поэтому я подумал, что это маловероятно. Конечно, вывод формулы поможет! :)
Эрик
Отрицательные значения являются результатом положительной корреляции между наблюдением и его установленным значением, которое уменьшает дисперсию разницы.
Glen_b
@Glen Спасибо за объяснение, почему оказывается, что формула имеет смысл, наряду с вашим выводом матрицы ниже.
Эрик

Ответы:

27

Интуиция о знаках «плюс», связанных с дисперсией (из того факта, что даже когда мы вычисляем дисперсию разности независимых случайных величин, мы добавляем их дисперсии), правильна, но фатально неполна: если задействованные случайные переменные не являются независимыми тогда также участвуют ковариации - и ковариации могут быть отрицательными. Существует выражение, которое почти похоже на то, что выражение в вопросе считалось, что оно «должно» быть у ОП (и у меня), и это дисперсия ошибки предсказания , обозначаем ее , где :у 0 = β 0 + β 1 х 0 + U 0e0=y0y^0y0=β0+β1x0+u0

Var(e0)=σ2(1+1n+(x0x¯)2Sxx)

Критическая разница между дисперсией ошибки предсказания и дисперсией оценки погрешности (т.е. невязки), является то , что этот термин ошибки предсказанного наблюдения не коррелирует с оценкой , так как значение были не используются в построение оценщика и вычисление оценок, являющихся значением вне выборки.y0

Алгебра для обоих продолжается точно до точки (используя вместо ), но затем расходится. В частности:я0i

В простой линейной регрессии , , дисперсия оценки прежнему вар ( U я ) = σ 2 β = ( β 0 , & beta ; 1 ) 'yi=β0+β1xi+uiVar(ui)=σ2β^=(β^0,β^1)

Var(β^)=σ2(XX)1

У нас есть

XX=[nxixixi2]

и так

(Икс'Икс)-1знак равно[ΣИкся2-ΣИкся-ΣИксяN][NΣИкся2-(ΣИкся)2]-1

У нас есть

[NΣИкся2-(ΣИкся)2]знак равно[NΣИкся2-N2Икс¯2]знак равноN[ΣИкся2-NИкс¯2]знак равноNΣ(Икся2-Икс¯2)NSИксИкс

Так

(Икс'Икс)-1знак равно[(1/N)ΣИкся2-Икс¯-Икс¯1](1/SИксИкс)

что обозначает

Var(β^0)знак равноσ2(1NΣИкся2) (1/SИксИкс)знак равноσ2NSИксИкс+NИкс¯2SИксИксзнак равноσ2(1N+Икс¯2SИксИкс)

Var(β^1)знак равноσ2(1/SИксИкс)

Cov(β^0,β^1)=σ2(x¯/Sxx)

-й остаточный определяются какi

u^i=yiy^i=(β0β^0)+(β1β^1)xi+ui

Фактические коэффициенты рассматриваются как константы, то регрессор фиксируются (или зависимость от него), и имеют нулевую ковариацию с ошибкой, но эти оценщики коррелируют с ошибкой, потому что оценщики содержат зависимые переменные, и зависимые переменные содержит термин ошибки. Итак, мы имеем

Var(u^i)=[Var(ui)+Var(β^0)+xi2Var(β^1)+2xiCov(β^0,β^1)]+2Cov([(β0β^0)+(β1β^1)xi],ui)

=[σ2+σ2(1n+x¯2Sxx)+xi2σ2(1/Sxx)+2Cov([(β0β^0)+(β1β^1)xi],ui)

Соберись немного, чтобы получить

Var(u^i)=[σ2(1+1n+(xix¯)2Sxx)]+2Cov([(β0β^0)+(β1β^1)xi],ui)

Термин в больших круглых скобках имеет точно такую ​​же структуру, что и дисперсия ошибки предсказания, с единственным изменением в том, что вместо у нас будет (а дисперсия будет равна а не ). Последний член ковариации равен нуль для ошибки предсказания , потому что и , следовательно является не включен в оценках, но не равно нуль погрешности оценки , так и , следовательно является частью образца и поэтому он включен в оценщик. У нас естьх 0 е 0 у я у 0 U 0 у я у яxix0e0u^iy0u0yiuя

2Cov([(β0-β^0)+(β1-β^1)Икся],Uя)знак равно2Е([(β0-β^0)+(β1-β^1)Икся]Uя)

знак равно-2Е(β^0Uя)-2ИксяЕ(β^1Uя)знак равно-2Е([Y¯-β^1Икс¯]Uя)-2ИксяЕ(β^1Uя)

последняя замена от того, как вычисляется . Продолжая,β^0

,,,знак равно-2Е(Y¯Uя)-2(Икся-Икс¯)Е(β^1Uя)знак равно-2σ2N-2(Икся-Икс¯)Е[Σ(Икся-Икс¯)(Yя-Y¯)SИксИксUя]

знак равно-2σ2N-2(Икся-Икс¯)SИксИкс[Σ(Икся-Икс¯)Е(YяUя-Y¯Uя)]

знак равно-2σ2N-2(Икся-Икс¯)SИксИкс[-σ2NΣJя(ИксJ-Икс¯)+(Икся-Икс¯)σ2(1-1N)]

знак равно-2σ2N-2(Икся-Икс¯)SИксИкс[-σ2NΣ(Икся-Икс¯)+(Икся-Икс¯)σ2]

знак равно-2σ2N-2(Икся-Икс¯)SИксИкс[0+(Икся-Икс¯)σ2]знак равно-2σ2N-2σ2(Икся-Икс¯)2SИксИкс

Подставляя это в выражение для дисперсии остатка, получим

Var(U^я)знак равноσ2(1-1N-(Икся-Икс¯)2SИксИкс)

Так что снимаю шляпу перед текстом, который использует ОП.

(Я пропустил некоторые алгебраические манипуляции, неудивительно, что алгебре МЖС учат все меньше и меньше в наши дни ...)

НЕКОТОРЫЕ ИНТУИЦИИ

Таким образом, получается, что то, что работает "против" нас (большая дисперсия) при прогнозировании, работает "для нас" (более низкая дисперсия) при оценке. Это хорошая отправная точка для размышления, почему отличная подгонка может быть плохим признаком для предсказательных способностей модели (как бы нелогично это ни звучало ...).
Тот факт, что мы оцениваем ожидаемое значение регрессора, уменьшает дисперсию на . Почему? потому что, оценивая , мы «закрываем глаза» на некоторую изменчивость ошибок, существующую в выборке, поскольку мы по существу оцениваем ожидаемое значение. Более того, чем больше отклонение наблюдения регрессора от среднего значения выборки регрессора,1/Nдисперсия остатка, связанного с этим наблюдением, будет ... чем более отклоняющееся наблюдение, тем менее отклоняющимся является его остаток ... переменность регрессоров, которая работает для нас, "занимая место" неизвестной ошибки - изменчивость.

Но это хорошо для оценки . Что касается предсказания , то же самое оборачивается против нас: теперь, не принимая во внимание, хотя и несовершенно, изменчивость (поскольку мы хотим ее предсказать), наши несовершенные оценки, полученные из выборки, показывают их слабые стороны: мы оценили выборка означает, что мы не знаем истинного ожидаемого значения - дисперсия увеличивается. У нас есть который находится далеко от среднего значения выборки, рассчитанного по другим наблюдениям - слишком плохо, наша дисперсия ошибки предсказания получает еще один импульс, потому что предсказанный будет иметь тенденцию отклоняться ... в более научный язык "оптимальные предикторы в смысле уменьшения ошибки прогнозирования, представляют собойх 0 у 0Y0Икс0 Y^0сужение к среднему значению предсказываемой переменной ". Мы не пытаемся копировать изменчивость зависимой переменной - мы просто стараемся оставаться" близко к среднему ".

Алекос Пападопулос
источник
Спасибо за очень четкий ответ! Я рад, что моя «интуиция» была правильной.
Эрик
Алекос, я действительно не думаю, что это правильно.
Glen_b
@ Алекос, ошибка заключается в том, что оценки параметров не соотносятся с ошибкой. Эта часть: не правильно. Var(U^я)знак равноVar(Uя)+Var(β^0)+Икся2Var(β^1)+2ИксяCov(β^0,β^1)
Glen_b
@Eric Я прошу прощения за то, что ввел вас в заблуждение ранее. Я попытался дать некоторую интуицию для обеих формул.
Алекос Пападопулос
+1 Вы можете понять, почему я сделал случай множественной регрессии для этого ... спасибо, что приложили дополнительные усилия для выполнения случая простой регрессии.
Glen_b
19

Извините за несколько краткий ответ, возможно, чрезмерно абстрактный и лишенный желаемого количества интуитивного изложения, но я постараюсь вернуться и добавить еще несколько деталей позже. По крайней мере, это коротко.

Учитывая ,ЧАСзнак равноИкс(ИксТИкс)-1ИксТ

Var(Y-Y^)знак равноVar((я-ЧАС)Y)знак равно(я-ЧАС)Var(Y)(я-ЧАС)Тзнак равноσ2(я-ЧАС)2знак равноσ2(я-ЧАС)

следовательно

Var(Yя-Y^я)знак равноσ2(1-часяя)

В случае простой линейной регрессии ... это дает ответ на ваш вопрос.

Этот ответ также имеет смысл: поскольку положительно коррелирует с , дисперсия разности должна быть меньше, чем сумма дисперсий.Y^яYя

-

Изменить: Объяснение, почему является идемпотентом .(я-ЧАС)

(i) является идемпотентом:ЧАС

ЧАС2знак равноИкс(ИксТИкс)-1ИксТИкс(ИксТИкс)-1ИксТ знак равноИкс [(ИксТИкс)-1ИксТИкс] (ИксТИкс)-1ИксТзнак равноИкс(ИксТИкс)-1ИксТзнак равноЧАС

(ii)(я-ЧАС)2знак равноя2-яЧАС-ЧАСя+ЧАС2знак равноя-2ЧАС+ЧАСзнак равноя-ЧАС

Glen_b - Восстановить Монику
источник
1
Это очень хороший вывод из-за его простоты, хотя один шаг, который мне не понятен, - почему . Может быть, когда вы немного расширите свой ответ, как вы планируете в любом случае, вы могли бы немного рассказать об этом? (я-ЧАС)2знак равно(я-ЧАС)
Джейк Уэстфолл,
@Jake Добавил пару строк в конце
Glen_b