связь между

10

Очень простой вопрос, касающийся OLS регрессий $R^2$

запустить регрессию OLS y ~ x1, у нас есть $R^2$ , скажем, 0,3
запустить регрессию OLS y ~ x2, у нас есть еще один $R^2$ , скажем, 0,4
Теперь мы запустим регрессию y ~ x1 + x2, какое значение может иметь R в квадрате этой регрессии?

Я думаю, ясно, что $R^2$ для множественной регрессии должен быть не менее 0,4, но возможно ли, чтобы он был больше 0,7?

regression multiple-regression least-squares r-squared Оливье Ма
источник

2

Подсказка: она может достигать 1,0. Почему? (Думайте геометрически. Или, даже конкретно, о единичном круге.)

кардинал

stats.stackexchange.com/questions/351200/…

StubbornAtom

4

Второй регрессор может просто восполнить то, что первому не удалось объяснить в зависимой переменной. Вот числовой пример:

Генерация x1в качестве стандартного нормального регрессора, размер выборки 20. Без потери общности возьмем , где равно . Теперь возьмем второй регрессор как просто разницу между зависимой переменной и первым регрессором. $y_i=0.5x_{1i}+u_i$ $u_i$ $N(0,1)$ x2

n <- 20 
x1 <- rnorm(n)

y <- .5*x1 + rnorm(n)

x2 <- y - x1
summary(lm(y~x1))$r.squared
summary(lm(y~x2))$r.squared
summary(lm(y~x1+x2))$r.squared

Кристоф Ханк
источник

Спасибо! У меня было неправильное понимание г в квадрате. Я думал, что если x1 + x2 = yтогда summary(lm(y~x1))$r.squared + summary(lm(y~x2))$r.squaredдолжно быть не меньше 1., но, очевидно, я не прав ..

Оливье Ма

3

За исключением нижней границы, которая равна 0,3 или 0,4, в зависимости от того, какая переменная сначала входит в модель, вы не можете сказать много. Уровень во многом зависит от информации, которую вторая переменная вносит в модель. Под информацией мы подразумеваем, конечно, объясненное изменение в ответе. $R^2$

Существует одна концепция, которая имеет решающее значение в этом отношении, и это корреляция между предикторами. Если корреляция велика, новая переменная не только ничего не принесет в модель, но и усложнит вывод для существующих переменных, так как оценки станут неточными (мультиколлинеарность). По этой причине мы в идеале предпочли бы, чтобы новая переменная была ортогональной к другим. Вероятность того, что это произойдет в наблюдательных исследованиях, невелика, но это может быть достигнуто в контролируемых условиях, например, когда вы строите свой собственный эксперимент.

Но как точно определить количественно новую информацию, которую переменная принесет в модель? Один широко используемый показатель , который принимает все это во внимание , является частичным . Если вы знакомы с ANOVA линейной модели, это не что иное, как пропорциональное уменьшение суммы ошибок квадратов, которое вы добьетесь, включив эту переменную в вашу модель. Высокие проценты желательны, в то время как низкие, вероятно, заставят вас думать, является ли это правильным курсом действий. $R^2$

Таким образом, как @cardinal указал в комментариях, ваш новый коэффициент детерминации может достигать 1. Он также может составлять 0,400001. Невозможно сказать без дополнительной информации.

JohnK
источник

@JohnK, не могли бы вы объяснить, почему он должен быть СТРОГО больше 0,4? Поможет ли здесь геометрическая интерпретация регрессии?

Днаил

@Dnaiel Коэффициент детерминации не уменьшается по отношению к числу переменных в модели.

JohnK

3

Коэффициент детерминации в множественной линейной регрессии. В множественной линейной регрессии коэффициент детерминации может быть записан в терминах парных корреляций для переменных с использованием квадратичной формы:

R^{2} = r_{y, x}^{T} r_{x, x}^{- 1} r_{y, x},

$R^2 = \boldsymbol{r}_{\mathbf{y},\mathbf{x}}^\text{T} \boldsymbol{r}_{\mathbf{x},\mathbf{x}}^{-1} \boldsymbol{r}_{\mathbf{y},\mathbf{x}},$

$\boldsymbol{r}_{\mathbf{y},\mathbf{x}}$ $\boldsymbol{r}_{\mathbf{x},\mathbf{x}}$

\begin{aligned} R^{2} & = {[\begin{matrix} r_{Y, X_{1}} \\ r_{Y, X_{2}} \end{matrix}]}^{T} {[\begin{matrix} 1 & r_{X_{1}, X_{2}} \\ r_{X_{1}, X_{2}} & 1 \end{matrix}]}^{- 1} [\begin{matrix} r_{Y, X_{1}} \\ r_{Y, X_{2}} \end{matrix}] \\ = \frac{1}{1 - r_{X_{1}, X_{2}}^{2}} {[\begin{matrix} r_{Y, X_{1}} \\ r_{Y, X_{2}} \end{matrix}]}^{T} [\begin{matrix} 1 & - r_{X_{1}, X_{2}} \\ - r_{X_{1}, X_{2}} & 1 \end{matrix}] [\begin{matrix} r_{Y, X_{1}} \\ r_{Y, X_{2}} \end{matrix}] \\ = \frac{1}{1 - r_{X_{1}, X_{2}}^{2}} (r_{Y, X_{1}}^{2} + r_{Y, X_{2}}^{2} - 2 r_{X_{1}, X_{2}} r_{Y, X_{1}} r_{Y, X_{2}}) . \end{aligned}

$\begin{equation} \begin{aligned} R^2 &= \begin{bmatrix} r_{Y,X_1} \\[6pt] r_{Y,X_2} \\[6pt] \end{bmatrix}^\text{T} \begin{bmatrix} 1 & r_{X_1,X_2} \\[6pt] r_{X_1,X_2} & 1 \\[6pt] \end{bmatrix}^{-1} \begin{bmatrix} r_{Y,X_1} \\[6pt] r_{Y,X_2} \\[6pt] \end{bmatrix} \\[6pt] &= \frac{1}{1-r_{X_1,X_2}^2} \begin{bmatrix} r_{Y,X_1} \\[6pt] r_{Y,X_2} \\[6pt] \end{bmatrix}^\text{T} \begin{bmatrix} 1 & -r_{X_1,X_2} \\[6pt] -r_{X_1,X_2} & 1 \\[6pt] \end{bmatrix} \begin{bmatrix} r_{Y,X_1} \\[6pt] r_{Y,X_2} \\[6pt] \end{bmatrix} \\[6pt] &= \frac{1}{1-r_{X_1,X_2}^2} ( r_{Y,X_1}^2 + r_{Y,X_2}^2 - 2 r_{X_1,X_2} r_{Y,X_1} r_{Y,X_2} ). \end{aligned} \end{equation}$

$D \equiv \text{sgn} (r_{Y,X_1}) \cdot \text{sgn} (r_{Y,X_2}) \in \{ -1, +1 \}$ $r_{Y,X_1}^2 = 0.3$ $r_{Y,X_2}^2 = 0.4$

R^{2} = \frac{0.7 - 2 \sqrt{0.12} \cdot D \cdot r_{X_{1}, X_{2}}}{1 - r_{X_{1}, X_{2}}^{2}} .

$R^2 = \frac{0.7 - 2 \sqrt{0.12} \cdot D \cdot r_{X_1,X_2}}{1-r_{X_1,X_2}^2}.$

$R^2 > 0.7$

Бен - Восстановить Монику
источник

связь между

Ответы: