Можно ли использовать стандартизированные

9

Я пытаюсь интерпретировать результаты статьи, где они применили множественную регрессию, чтобы предсказать различные результаты. Однако 's (стандартизированные коэффициенты B определены как β x 1 = B x 1S D x 1β гдеy- зависимая переменная, аx1- предиктор), по-видимому, не соответствует сообщенномуR2:βx1=Bx1SDx1SDyyx1R2

введите описание изображения здесь

Несмотря на то, что -0,83, -0,29, -0,16, -0,43, 0,25 и -0,29, R 2 составляет всего 0,20.βR2

Кроме того, три предиктора: вес, ИМТ и% жира являются мультиколлинеарными, коррелируют в пределах r = 0,8-0,9 друг с другом в полах.

Является ли значение вероятным с этими β или нет прямой связи между β и R 2 ?R2ββR2

Кроме того, могут ли проблемы с мультиколлинеарными предикторами повлиять на четвертого предиктора (VO2max), который коррелирует около r = 0,4 с вышеупомянутыми тремя переменными?β

Сакари Юкарайнен
источник
Что такое в этом контексте? Коэффициент бета (стандартизированная регрессия)? Или что-то другое? Если это так, то, что вы не можете сказать ничего, все, что вы получите, это интерпретация в терминах стандартных отклонений. Тот факт, что коэффициент подразумевает большие эффекты, не подразумевает высокое значение R 2βR2
Repmat
1
ß обозначает стандартизированные коэффициенты b. Для случая с одним предиктором ß равен r Пирсона, что напрямую связано с R-квадратом, однако, в этом многомерном случае, почему высокий ß не означает высокий R-квадрат?
Сакари Юкарайнен
2
Нет, в одном случае регрессора не равно корреляции Пирсона: β = Cov ( y , x )β. Соотношение междуβs иR2не так просто. β=Cov(y,x)Var(x)Cov(y,x)Var(y)×Var(x)=ρ(y,x)βR2
Ричард Харди
5
@RichardHardy Я подозреваю, что путаница заключается в том, что Сакари определил как стандартизированный коэффициент регрессии. В двумерной линейной регрессии коэффициент регрессии ( b в обозначениях Сакари) равен r x y s yβb , гдеr- корреляция, аs- стандартное отклонение. Чтобы стандартизировать коэффициент регрессии, мы делим коэффициент на стандартное отклонениеyи умножаем на это стандартное отклонениеx, поэтому остается только корреляция. Так что Сакари прав. rxysysxrsyx
Мартен Буис
Я до сих пор не понимаю, почему вы считаете это ошибочным? Если в документе есть некоторая сводная статистика, вы можете просто проверить, складываются ли цифры. Вы даже предоставили формулу для этого. Вы не можете сделать вывод, просто потому, что эффекты в терминах значительны, что модели хорошо объясняют разницу в y.
Repmat

Ответы:

17

Геометрическая интерпретация обычной регрессии наименьших квадратов дает необходимое представление.

Большую часть того, что нам нужно знать, можно увидеть в случае двух регрессоров и x 2 с ответом y . В стандартизованных коэффициентах, или «бета,» возникают тогда , когда все три вектора стандартизированы к общей длине (который можно взять равную единицу). Таким образом, x 1 и x 2 являются единичными векторами в плоскости E 2 - они расположены на единичной окружности - и y является единичным вектором в трехмерном евклидовом пространстве E 3, содержащем эту плоскость. Встроено значение у является ортогональной (перпендикулярным) проекциейx1x2yx1x2E2yE3y^ на Е 2 . Поскольку R 2 просто квадрат длины у , мы даже не нужно визуализировать все три измерения: вся необходимая нам информация может быть нарисованы в этой плоскости.yE2R2y^

Ортогональные регрессоры

Самая хорошая ситуация, когда регрессоры ортогональны, как на первом рисунке.

На рисунке 1 показаны регрессоры и $ \ hat y $ как векторы на плоскости.

На этой и остальных фигурах я последовательно нарисую диск блока белым цветом, а регрессоры - черными стрелками. всегда будет указывать прямо вправо. Толстые красные стрелки изображают компоненты у в х 1 и х 2 направлениях: то есть, β 1 х 1 и β 2 х 2 . Длина у радиус серой окружности , на которой он лежит , - но помните , что R 2 представляет собойx1y^x1x2β1x1β2x2y^R2 квадрат этой длины.

Теорема Пифагора утверждает

R2=|y^|2=|β1x1|2+|β2x2|2=β12(1)+β22(1)=β12+β22.

Поскольку теорема Пифагора справедлива в любом количестве измерений, это рассуждение обобщается на любое число регрессоров, что дает наш первый результат:

R2

R2

Сопоставленная

Отрицательно коррелированные регрессоры встречаются под углами, превышающими прямой угол.

Рисунок 2, показывающий отрицательно коррелированные регрессоры

R2

y^R20x1x2R2

фигура

Давайте запомним этот очевидный результат, нашу вторую общность:

R2

Однако это не универсальное отношение, как показано на следующем рисунке.

Рисунок 3, показывающий отрицательно коррелированные регрессоры, но бета-версии имеют противоположные знаки.

R2y^1/2R21

Я оставляю на ваше воображение создание подобных примеров с положительно коррелированными регрессорами, которые, таким образом, встречаются под острыми углами.

R2

R2


Алгебраические результаты

x1,x2,,xpy(1,1,,1)

|xi|2=|y|2=1.

xin×pX

Σ=XX

xi

β=(XX)1Xy=Σ1(Xy).

Кроме того, по определению, подходит

y^=Xβ=X(Σ1Xy).

R2

R2=|y^|2=y^y^=(Xβ)(Xβ)=β(XX)β=βΣβ.

R2

i=1pβi2=ββ.

L2Ap2

|A|22=i,jaij2=tr(AA)=tr(AA).

Неравенство Коши-Шварца подразумевает

R2=tr(R2)=tr(βΣβ)=tr(Σββ)|Σ|2|ββ|2=|Σ|2ββ.

1p2p×pΣ|Σ|21×p2=p

R2pββ.

xi

R2R2/p


Выводы

R2y^R2

1.1301R21

0.830.69R20.20VO2max

R2x1x2y^x1x2yна неизвестные величины (в зависимости от того, как все три из них связаны с ковариатами), в результате чего мы почти ничего не знаем о фактических размерах векторов, с которыми мы работаем.

Whuber
источник
y^y^
@amoeba Вы совершенно правы. Я был слишком поспешным в создании этих изображений! Я (надеюсь, временно) удаляю этот пост, пока не получу возможность исправить проблему. Спасибо за указание на это.
whuber
@Amoeba Я исправил фотографии и изменил анализ, чтобы соответствовать им. Хотя детали существенно изменились, выводы остаются прежними.
whuber
1
@amoeba Опять вы правы. Имея некоторый риск потерять заинтересованных читателей, но теперь чувствуя себя обязанным дать количественную оценку геометрической интуиции, я ужесточил этот вывод и обосновал его немного алгеброй. (Я верю, что алгебра верна!)
whuber
1
Большое спасибо! Как признак, VO2max отрицательно коррелирует с весом и ИМТ, поскольку они связаны с более высокой мышечной массой тела. В упомянутой таблице VO2max фактически соответствует VO2max, деленному на вес (что является плохим способом масштабирования VO2max к размеру тела). VO2max / вес в таблице отрицательно коррелирует со всеми другими предикторами, кроме пола, что может объяснить высокий R, но низкий R-квадрат, как вы упомянули.
Сакари Юкарайнен