Этот пост относится к двумерной модели линейной регрессии, . Я всегда брал разбиение общей суммы квадратов (SSTO) на сумму квадратов для ошибки (SSE) и суммы квадратов для модели (SSR) по вере, но как только я действительно начал думать об этом, я не понимаю почему это работает ...
Часть I действительно понимают:
: наблюдаемое значение y
: среднее значение всех наблюдаемых s
: подогнанное / предсказанное значение y для данного наблюдения x
: Остаток / ошибка (если возвести в квадрат и сложить для всех наблюдений, это SSE)
: насколько значение, соответствующее модели, отличается от среднего значения (если в квадрате и суммировать для всех наблюдений, это SSR)
: насколько наблюдаемое значение отличается от среднего значения (если суммировать и суммировать для всех наблюдений, это SSTO).
Я могу понять, почему, для одного наблюдения, ничего не возводя в квадрат, . И я могу понять, почему, если вы хотите сложить вещи по всем наблюдениям, вы должны возвести их в квадрат, или они сложат до 0.
Я не понимаю, почему (например, SSTO = SSR + SSE). Похоже, что если у вас есть ситуация, когда , то , а не . Почему это не так? = В + С 2 = B 2 + 2 В С + С 2 2 = B 2 + C 2
источник
Ответы:
Концептуально идея состоит в том, что потому что B и C ортогональны (то есть перпендикулярны).BC=0 B C
В контексте линейной регрессии здесь, невязки ортогональны унижал прогноз у я - ˉ у . Прогноз от линейной регрессии создает ортогональное разложение y в том же смысле, что ( 3 , 4 ) = ( 3 , 0 ) + ( 0 , 4 ) является ортогональным разложением.ϵi=yi−y^i y^i−y¯ y (3,4)=(3,0)+(0,4)
Версия линейной алгебры:
Позволять:
Линейная регрессия (с включенной константой) разбивает на сумму двух векторов: прогноз и остаточныйz εz^ ϵ
Пусть обозначает скалярное произведение . (В более общем смысле может быть внутренним произведением .)⟨ X⟨.,.⟩ Е [ Х Y ]⟨X,Y⟩ E[XY]
Где последняя строка следует из того факта, что (т. Е. Это и ортогональны). Вы можете доказать, что и ортогональны, основываясь на том, как обычная регрессия наименьших квадратов строит .г & epsi ; = г - г г & epsi ; г⟨z^,ϵ⟩=0 z^ ϵ=z−z^ z^ ϵ z^
гх1х2ε г х1х2εz^ является линейной проекцией из на подпространство , определенное линейной оболочкой из регрессоры , , и т.д .... Остаточный ортогонален всему этому подпространству, поэтому (который находится в диапазоне , и т. д. ...) ортогональный .z x1 x2 ϵ z^ x1 x2 ϵ
Обратите внимание, что как я определил как скалярное произведение, - просто еще один способ написания (т. е. SSTO = SSR + SSE)⟨ Г , г ⟩ = ⟨ г , г ⟩ + ⟨ & epsi ; , & epsi ; ⟩ Е я ( у я - ˉ у ) 2 = Е я ( у я - ˉ у ) 2 + Е я ( у я - у и ) 2⟨.,.⟩ ⟨z,z⟩=⟨z^,z^⟩+⟨ϵ,ϵ⟩ ∑i(yi−y¯)2=∑i(y^i−y¯)2+∑i(yi−y^i)2
источник
Весь смысл в том, что некоторые векторы ортогональны, а затем используют теорему Пифагора.
Рассмотрим многомерную линейную регрессию . Мы знаем, что оценщик OLS равен . Теперь рассмотрим оценку& beta ; = ( Х т Х ) - 1 х т УY=Xβ+ϵ β^=(XtX)−1XtY
где - ортогональная проекционная матрица Y на . Теперь у нас естьS ( X )H S(X)
где - матрица проекции на ортогональное дополнение которое является . Таким образом, мы знаем, что и ортогональны.S ( X ) S ⊥ ( X ) Y - Y(I−H) S(X) S⊥(X) Y−Y^ Y^
Теперь рассмотрим подмодельY=X0β0+ϵ
где и аналогично у нас есть оценщик OLS и оценка и с матрицей проекции на . Точно так же у нас есть и ортогональны. И сейчас^ β 0 ^ Y 0 H 0 S ( X 0 ) Y - ^ Y 0 ^ Y 0X=[X0|X1] β0^ Y0^ H0 S(X0) Y−Y0^ Y0^
где снова - матрица ортогональной проекции на дополнении к которое является . Таким образом, мы имеем ортогональность и . Итак, в конце концов мы имеемС ( Х 0 ) S ⊥ ( Х 0 ) У - ^ У 0 ^ У 0(I−H0) S(X0) S⊥(X0) Y^−Y0^ Y0^
и, наконец,||Y−Y0^||2=||Y−Y^||2+||Y^−Y0^||2
Наконец, среднее значение - это просто при рассмотрении нулевой модели .Y¯ Y0^ Y=β0+e
источник