Есть ли элегантный / проницательный способ понять эту линейную регрессионную идентичность для множественного

10

В линейной регрессии я обнаружил восхитительный результат, который, если мы подходим к модели

E[Y]=β1X1+β2X2+c,

затем, если мы стандартизируем и центрируем данные Y , X1 и X2 ,

R2=Cor(Y,X1)β1+Cor(Y,X2)β2.

Мне кажется, что версия с двумя переменными R2=Cor(Y,X)2для y=mx+c регрессии, что приятно.

Но единственное доказательство, которое я знаю, ни в коем случае не является конструктивным или проницательным (см. Ниже), и, тем не менее, чтобы взглянуть на него, кажется, что оно должно быть легко понятным.

Пример мысли:

  • Параметры β1 и β2 дают нам «пропорцию» X1 и X2 в Y , и поэтому мы берем соответствующие пропорции их корреляций ...
  • В β ; s частичные корреляции, R2 представляет собой квадрат коэффициента множественной корреляции ... корреляции умноженные на частичных корреляций ...
  • Если мы сначала ортогонализируем, то β s будет Cov/Var ... имеет ли этот результат какой-то геометрический смысл?

Кажется, ни одна из этих тем никуда не ведет за мной. Может ли кто-нибудь дать четкое объяснение того, как понять этот результат.


Неудовлетворительное Доказательство

R2=SSregSSTot=SSregN=(β1X1+β2X2)2=β12X12+β22X22+2β1β2X1X2

а также

Cor(Y,X1)β1+Cor(Y,X2)β2=YX1β1+YX2β2=β1X12+β2X1X2β1+β1X1X2+β2X22β2=β12X12+β22X22+2β1β2X1X2

QED.

Korone
источник
Вы должны использовать стандартизированные переменные, иначе ваша формула для не обязательно будет лежать между 0 и 1 . Хотя это предположение появляется в вашем доказательстве, оно поможет сделать его явным с самого начала. Я также озадачен тем, что вы на самом деле делаете: ваш R 2 явно является функцией одной модели - не имеет ничего общего с данными - но вы начинаете упоминать, что вы «подгоняли» модель к чему-то. R201R2
whuber
Разве ваш лучший результат не сохраняется, только если X1 и X2 совершенно некоррелированы?
gung - Восстановить Монику
@ gung Я так не думаю - доказательство внизу говорит, что оно работает независимо. Этот результат меня тоже удивляет, поэтому я хочу получить «ясное доказательство понимания»
Korone
@whuber Я не уверен, что вы имеете в виду под "функцией одной модели"? Я просто имею в виду для простого OLS с двумя переменными предиктора. Т.е. это версия 2 переменная R 2 = С о г ( У , Х ) 2R2R2=Cor(Y,X)2
Korone
Я не могу сказать, являются ли ваши параметрами или оценками. βi
whuber

Ответы:

9

Шляпная матрица идемпотентна.

(Это линейно-алгебраический способ утверждения, что OLS является ортогональной проекцией вектора ответа на пространство, охватываемое переменными.)


Напомним, что по определению

R2=ESSTSS

где

ESS=(Y^)Y^

является суммой квадратов (по центру) прогнозируемых значений и

TSS=YY

является суммой квадратов (центрированных) значений ответа. Стандартизация заранее к единице дисперсии также подразумеваетY

TSS=YY=n.

Напомним также, что оценочные коэффициенты определяются как

β^=(XX)XY,

откуда

Y^=Xβ^=X(XX)XY=HY

где является «шапку матрица» осуществления проекции Y на его наименьших квадратов Y . Он симметричен (что очевидно из самой его формы) и идемпотентен . Вот доказательство последнего для тех, кто не знаком с этим результатом. Это просто перемешивание скобок:HYY^

HH=HH=(X(XX)X)(X(XX)X)=X(XX)(XX)(XX)X=X(XX)X=H.

Следовательно

R2=ESSTSS=1n(Y^)Y^=1nYHHY=1nYHY=(1nYX)β^.

Решающий шаг в середине использовал идемпотентность шляпной матрицы. Правая сторона ваша волшебная формула, потому что представляет собой (строка) вектор коэффициентов корреляции междуYи столбцовX.1nYXYX

Whuber
источник
(+1) Очень хорошая рецензия. Но почему ^{-}вместо ^{-1}везде?
амеба
1
XX
4
AA+AA1
1
Интересная и убедительная мотивация, но могу ли я спросить, является ли эта нотация чем-то, что иногда используется в другом месте, или это ваше собственное изобретение?
амеба
5
@amoeba: Да, это обозначение появляется в другом месте, в том числе в классических текстах Грейбилла о линейной модели.
кардинал
5

Следующие три формулы хорошо известны, они встречаются во многих книгах по линейной регрессии. Их нетрудно вывести.

β1=rYX1rYX2rX1X21rX1X22

β2=rYX2rYX1rX1X21rX1X22

R2=rYX12+rYX222rYX1rYX2rX1X21rX1X22

R2=rYX1β1+rYX2β2


YX1X2

введите описание изображения здесь

Y^YecosYY^=|Y^|/|Y|

Y^X1X2b1|X1|=b1σX1b2|X2|=b2σX2

r1YX1r1Y^X1r1|Y|=r1σY=r1|Y^|=r1σY^r2|Y|=r2σY=r2|Y^|=r2σY^

R2=r1β1+r2β2

|X1|=|X2|=|Y|=1b1|X1|=β1b2|X2|=β2r1|Y|=r1r2|Y|=r2R=|Y^|/|Y|=|Y^|

введите описание изображения здесь

Y^RP=SCPpoints X axesSCaxes X axes

X1X2r12r1=β1+β2r12r2=β1r12+β2

rβR2=r1β1+r2β2R2=β12+β22+2β1β2r12 β1β2r12

То же самое верно для любого числа предикторов X. К сожалению, невозможно нарисовать одинаковые картинки со многими предикторами.

ttnphns
источник
1
+1 приятно видеть , что построенный таким образом , как хорошо, но это не добавляет столько понимания по сравнению с ответом whuber в
Korone
2
@ Короне, я добавил немного «понимания», которое вы могли бы принять.
ttnphns
1
r1=β1+β2r12
Действительно классно отредактировано, переключено принято.
Короне