Линейная регрессия: * Почему * вы можете разделить суммы квадратов?

9

Этот пост относится к двумерной модели линейной регрессии, . Я всегда брал разбиение общей суммы квадратов (SSTO) на сумму квадратов для ошибки (SSE) и суммы квадратов для модели (SSR) по вере, но как только я действительно начал думать об этом, я не понимаю почему это работает ...Yi=β0+β1xi

Часть I действительно понимают:

yi : наблюдаемое значение y

y¯ : среднее значение всех наблюдаемых syi

y^i : подогнанное / предсказанное значение y для данного наблюдения x

yiy^i : Остаток / ошибка (если возвести в квадрат и сложить для всех наблюдений, это SSE)

y^iy¯ : насколько значение, соответствующее модели, отличается от среднего значения (если в квадрате и суммировать для всех наблюдений, это SSR)

yiy¯ : насколько наблюдаемое значение отличается от среднего значения (если суммировать и суммировать для всех наблюдений, это SSTO).

Я могу понять, почему, для одного наблюдения, ничего не возводя в квадрат, . И я могу понять, почему, если вы хотите сложить вещи по всем наблюдениям, вы должны возвести их в квадрат, или они сложат до 0.(yiy¯)=(y^iy¯)+(yiy^i)

Я не понимаю, почему (например, SSTO = SSR + SSE). Похоже, что если у вас есть ситуация, когда , то , а не . Почему это не так? = В + С 2 = B 2 + 2 В С + С 2 2 = B 2 + C 2(yiy¯)2=(y^iy¯)2+(yiy^i)2A=B+CA2=B2+2BC+C2A2=B2+C2

bluemouse
источник
5
Вы пропустили суммирование в вашем последнем абзаце. SST = SSR + SSE - это сумма по , но ваше равенство, которое вы написали непосредственно перед тем, как оно на самом деле неверно без знака суммирования. i
Glen_b
1
В вашем последнем абзаце вы хотите (т.е. SSTO = SSR + SSE) нет (например, SSTO = SSR + SSE). «eg» - это сокращение от латинской фразы « examplesli gratia » или «например» на английском языке. «ie» является аббревиатурой от « id est » и может читаться на английском языке как «то есть».
Мэтью Ганн

Ответы:

9

Похоже, что если у вас есть ситуация, когда , то A 2 = B 2 + 2 B C + C 2 , а не A 2 = B 2 + C 2 . Почему это не так?A=B+CA2=B2+2BC+C2A2=B2+C2

Концептуально идея состоит в том, что потому что B и C ортогональны (то есть перпендикулярны).BC=0BC


В контексте линейной регрессии здесь, невязки ортогональны унижал прогноз у я - ˉ у . Прогноз от линейной регрессии создает ортогональное разложение y в том же смысле, что ( 3 , 4 ) = ( 3 , 0 ) + ( 0 , 4 ) является ортогональным разложением.ϵi=yiy^iy^iy¯y(3,4)=(3,0)+(0,4)

Версия линейной алгебры:

Позволять:

z=[y1y¯y2y¯yny¯]z^=[y^1y¯y^2y¯y^ny¯]ϵ=[y1y^1y2y^2yny^n]=zz^

Линейная регрессия (с включенной константой) разбивает на сумму двух векторов: прогноз и остаточныйz εz^ϵ

z=z^+ϵ

Пусть обозначает скалярное произведение . (В более общем смысле может быть внутренним произведением .)X.,.Е [ Х Y ]X,Y E[XY]

z,z=z^+ϵ,z^+ϵ=z^,z^+2z^,ϵ+ϵ,ϵ=z^,z^+ϵ,ϵ

Где последняя строка следует из того факта, что (т. Е. Это и ортогональны). Вы можете доказать, что и ортогональны, основываясь на том, как обычная регрессия наименьших квадратов строит .г & epsi ; = г - г г & epsi ; гz^,ϵ=0z^ϵ=zz^z^ϵz^

гх1х2ε г х1х2εz^ является линейной проекцией из на подпространство , определенное линейной оболочкой из регрессоры , , и т.д .... Остаточный ортогонален всему этому подпространству, поэтому (который находится в диапазоне , и т. д. ...) ортогональный .zx1x2ϵz^x1x2ϵ


Обратите внимание, что как я определил как скалярное произведение, - просто еще один способ написания (т. е. SSTO = SSR + SSE)Г , г= г , г+ ⟨ & epsi ; , & epsi ; Е я ( у я - ˉ у ) 2 = Е я ( у я - ˉ у ) 2 + Е я ( у я - у и ) 2.,.z,z=z^,z^+ϵ,ϵi(yiy¯)2=i(y^iy¯)2+i(yiy^i)2

Мэтью Ганн
источник
8

Весь смысл в том, что некоторые векторы ортогональны, а затем используют теорему Пифагора.

Рассмотрим многомерную линейную регрессию . Мы знаем, что оценщик OLS равен . Теперь рассмотрим оценку& beta ; = ( Х т Х ) - 1 х т УY=Xβ+ϵβ^=(XtX)1XtY

Y^=Xβ^=X(XtX)1XtY=HY (матрица H также называется "шляпной" матрицей)

где - ортогональная проекционная матрица Y на . Теперь у нас естьS ( X )HS(X)

YY^=YHY=(IH)Y

где - матрица проекции на ортогональное дополнение которое является . Таким образом, мы знаем, что и ортогональны.S ( X ) S ( X ) Y - Y(IH)S(X)S(X)YY^Y^

Теперь рассмотрим подмодельY=X0β0+ϵ

где и аналогично у нас есть оценщик OLS и оценка и с матрицей проекции на . Точно так же у нас есть и ортогональны. И сейчас^ β 0 ^ Y 0 H 0 S ( X 0 ) Y - ^ Y 0 ^ Y 0X=[X0|X1]β0^Y0^H0S(X0)YY0^Y0^

Y^Y0^=HYH0Y=HYH0HY=(IH0)HY

где снова - матрица ортогональной проекции на дополнении к которое является . Таким образом, мы имеем ортогональность и . Итак, в конце концов мы имеемС ( Х 0 ) S ( Х 0 ) У - ^ У 0 ^ У 0(IH0)S(X0)S(X0)Y^Y0^Y0^

||YY^||2=||Y||2||Y^||2=||YY0^||2+||Y0^||2||Y^Y0^||2||Y0^||2

и, наконец,||YY0^||2=||YY^||2+||Y^Y0^||2

Наконец, среднее значение - это просто при рассмотрении нулевой модели .Y¯Y0^Y=β0+e

Лукаш Град
источник
Спасибо за ваш ответ! Что такое S () (как в S (X) в вашем посте)?
Bluemouse
S(X) - подпространство, порожденное столбцами матрицыX
Лукаш Град,