Согласно тексту, который я использую, формула для дисперсии остатка определяется как:
Я нахожу это трудно поверить , так как остаточная разница между наблюдаемым значением и подогнанной значения; если бы вычислить дисперсию разницы, по крайней мере я бы ожидал некоторых «плюсов» в результирующем выражении. Любая помощь в понимании происхождения будет принята с благодарностью.
Ответы:
Интуиция о знаках «плюс», связанных с дисперсией (из того факта, что даже когда мы вычисляем дисперсию разности независимых случайных величин, мы добавляем их дисперсии), правильна, но фатально неполна: если задействованные случайные переменные не являются независимыми тогда также участвуют ковариации - и ковариации могут быть отрицательными. Существует выражение, которое почти похоже на то, что выражение в вопросе считалось, что оно «должно» быть у ОП (и у меня), и это дисперсия ошибки предсказания , обозначаем ее , где :у 0 = β 0 + β 1 х 0 + U 0e0=y0−y^0 y0=β0+β1x0+u0
Критическая разница между дисперсией ошибки предсказания и дисперсией оценки погрешности (т.е. невязки), является то , что этот термин ошибки предсказанного наблюдения не коррелирует с оценкой , так как значение были не используются в построение оценщика и вычисление оценок, являющихся значением вне выборки.y0
Алгебра для обоих продолжается точно до точки (используя вместо ), но затем расходится. В частности:я0 i
В простой линейной регрессии , , дисперсия оценки прежнему вар ( U я ) = σ 2 β = ( β 0 , & beta ; 1 ) 'yi=β0+β1xi+ui Var(ui)=σ2 β^=(β^0,β^1)′
У нас есть
и так
У нас есть
Так
что обозначает
-й остаточный определяются какi
Фактические коэффициенты рассматриваются как константы, то регрессор фиксируются (или зависимость от него), и имеют нулевую ковариацию с ошибкой, но эти оценщики коррелируют с ошибкой, потому что оценщики содержат зависимые переменные, и зависимые переменные содержит термин ошибки. Итак, мы имеем
Соберись немного, чтобы получить
Термин в больших круглых скобках имеет точно такую же структуру, что и дисперсия ошибки предсказания, с единственным изменением в том, что вместо у нас будет (а дисперсия будет равна а не ). Последний член ковариации равен нуль для ошибки предсказания , потому что и , следовательно является не включен в оценках, но не равно нуль погрешности оценки , так и , следовательно является частью образца и поэтому он включен в оценщик. У нас естьх 0 е 0 у я у 0 U 0 у я у яxi x0 e0 u^i y0 u0 yi uя
последняя замена от того, как вычисляется . Продолжая,β^0
Подставляя это в выражение для дисперсии остатка, получим
Так что снимаю шляпу перед текстом, который использует ОП.
(Я пропустил некоторые алгебраические манипуляции, неудивительно, что алгебре МЖС учат все меньше и меньше в наши дни ...)
НЕКОТОРЫЕ ИНТУИЦИИ
Таким образом, получается, что то, что работает "против" нас (большая дисперсия) при прогнозировании, работает "для нас" (более низкая дисперсия) при оценке. Это хорошая отправная точка для размышления, почему отличная подгонка может быть плохим признаком для предсказательных способностей модели (как бы нелогично это ни звучало ...).1 / n дисперсия остатка, связанного с этим наблюдением, будет ... чем более отклоняющееся наблюдение, тем менее отклоняющимся является его остаток ... переменность регрессоров, которая работает для нас, "занимая место" неизвестной ошибки - изменчивость.
Тот факт, что мы оцениваем ожидаемое значение регрессора, уменьшает дисперсию на . Почему? потому что, оценивая , мы «закрываем глаза» на некоторую изменчивость ошибок, существующую в выборке, поскольку мы по существу оцениваем ожидаемое значение. Более того, чем больше отклонение наблюдения регрессора от среднего значения выборки регрессора,
Но это хорошо для оценки . Что касается предсказания , то же самое оборачивается против нас: теперь, не принимая во внимание, хотя и несовершенно, изменчивость (поскольку мы хотим ее предсказать), наши несовершенные оценки, полученные из выборки, показывают их слабые стороны: мы оценили выборка означает, что мы не знаем истинного ожидаемого значения - дисперсия увеличивается. У нас есть который находится далеко от среднего значения выборки, рассчитанного по другим наблюдениям - слишком плохо, наша дисперсия ошибки предсказания получает еще один импульс, потому что предсказанный будет иметь тенденцию отклоняться ... в более научный язык "оптимальные предикторы в смысле уменьшения ошибки прогнозирования, представляют собойх 0 у 0Y0 Икс0 Y^0 сужение к среднему значению предсказываемой переменной ". Мы не пытаемся копировать изменчивость зависимой переменной - мы просто стараемся оставаться" близко к среднему ".
источник
Извините за несколько краткий ответ, возможно, чрезмерно абстрактный и лишенный желаемого количества интуитивного изложения, но я постараюсь вернуться и добавить еще несколько деталей позже. По крайней мере, это коротко.
Учитывая ,ЧАС= X( XТИкс)- 1ИксТ
следовательно
В случае простой линейной регрессии ... это дает ответ на ваш вопрос.
Этот ответ также имеет смысл: поскольку положительно коррелирует с , дисперсия разности должна быть меньше, чем сумма дисперсий.Y^я Yя
-
Изменить: Объяснение, почему является идемпотентом .(Я-H)
(i) является идемпотентом:ЧАС
(ii)(Я- H)2= Я2- яЧАС- Hя+ H2= Я- 2 ч+ H= Я- H
источник