связь между

10

Очень простой вопрос, касающийся OLS регрессийр2

  1. запустить регрессию OLS y ~ x1, у нас есть р2 , скажем, 0,3
  2. запустить регрессию OLS y ~ x2, у нас есть еще один р2 , скажем, 0,4
  3. Теперь мы запустим регрессию y ~ x1 + x2, какое значение может иметь R в квадрате этой регрессии?

Я думаю, ясно, что р2 для множественной регрессии должен быть не менее 0,4, но возможно ли, чтобы он был больше 0,7?

Оливье Ма
источник
2
Подсказка: она может достигать 1,0. Почему? (Думайте геометрически. Или, даже конкретно, о единичном круге.)
кардинал

Ответы:

4

Второй регрессор может просто восполнить то, что первому не удалось объяснить в зависимой переменной. Вот числовой пример:

Генерация x1в качестве стандартного нормального регрессора, размер выборки 20. Без потери общности возьмем , где u i также равно N ( 0 , 1 ) . Теперь возьмем второй регрессор как просто разницу между зависимой переменной и первым регрессором.yi=0.5x1i+uiuiN(0,1)x2

n <- 20 
x1 <- rnorm(n)

y <- .5*x1 + rnorm(n)

x2 <- y - x1
summary(lm(y~x1))$r.squared
summary(lm(y~x2))$r.squared
summary(lm(y~x1+x2))$r.squared
Кристоф Ханк
источник
Спасибо! У меня было неправильное понимание г в квадрате. Я думал, что если x1 + x2 = yтогда summary(lm(y~x1))$r.squared + summary(lm(y~x2))$r.squaredдолжно быть не меньше 1., но, очевидно, я не прав ..
Оливье Ма
3

За исключением нижней границы, которая равна 0,3 или 0,4, в зависимости от того, какая переменная сначала входит в модель, вы не можете сказать много. Уровень во многом зависит от информации, которую вторая переменная вносит в модель. Под информацией мы подразумеваем, конечно, объясненное изменение в ответе.R2

Существует одна концепция, которая имеет решающее значение в этом отношении, и это корреляция между предикторами. Если корреляция велика, новая переменная не только ничего не принесет в модель, но и усложнит вывод для существующих переменных, так как оценки станут неточными (мультиколлинеарность). По этой причине мы в идеале предпочли бы, чтобы новая переменная была ортогональной к другим. Вероятность того, что это произойдет в наблюдательных исследованиях, невелика, но это может быть достигнуто в контролируемых условиях, например, когда вы строите свой собственный эксперимент.

Но как точно определить количественно новую информацию, которую переменная принесет в модель? Один широко используемый показатель , который принимает все это во внимание , является частичным R 2 . Если вы знакомы с ANOVA линейной модели, это не что иное, как пропорциональное уменьшение суммы ошибок квадратов, которое вы добьетесь, включив эту переменную в вашу модель. Высокие проценты желательны, в то время как низкие, вероятно, заставят вас думать, является ли это правильным курсом действий. R2

Таким образом, как @cardinal указал в комментариях, ваш новый коэффициент детерминации может достигать 1. Он также может составлять 0,400001. Невозможно сказать без дополнительной информации.

JohnK
источник
@JohnK, не могли бы вы объяснить, почему он должен быть СТРОГО больше 0,4? Поможет ли здесь геометрическая интерпретация регрессии?
Днаил
@Dnaiel Коэффициент детерминации не уменьшается по отношению к числу переменных в модели.
JohnK
3

Коэффициент детерминации в множественной линейной регрессии. В множественной линейной регрессии коэффициент детерминации может быть записан в терминах парных корреляций для переменных с использованием квадратичной формы:

R2=ry,xTrx,x1ry,x,

ry,xrx,x

R2=[rY,X1rY,X2]T[1rX1,X2rX1,X21]1[rY,X1rY,X2]=11rX1,X22[rY,X1rY,X2]T[1rX1,X2rX1,X21][rY,X1rY,X2]=11rX1,X22(rY,X12+rY,X222rX1,X2rY,X1rY,X2).

Dsgn(rY,X1)sgn(rY,X2){1,+1}rY,X12=0.3rY,X22=0.4

R2=0.720.12DrX1,X21rX1,X22.

R2>0.7

Бен - Восстановить Монику
источник