Очень простой вопрос, касающийся OLS регрессий
- запустить регрессию OLS y ~ x1, у нас есть , скажем, 0,3
- запустить регрессию OLS y ~ x2, у нас есть еще один , скажем, 0,4
- Теперь мы запустим регрессию y ~ x1 + x2, какое значение может иметь R в квадрате этой регрессии?
Я думаю, ясно, что для множественной регрессии должен быть не менее 0,4, но возможно ли, чтобы он был больше 0,7?
Ответы:
Второй регрессор может просто восполнить то, что первому не удалось объяснить в зависимой переменной. Вот числовой пример:
Генерацияyi=0.5x1i+ui ui N(0,1)
x1
в качестве стандартного нормального регрессора, размер выборки 20. Без потери общности возьмем , где u i также равно N ( 0 , 1 ) . Теперь возьмем второй регрессор как просто разницу между зависимой переменной и первым регрессором.x2
источник
x1 + x2 = y
тогдаsummary(lm(y~x1))$r.squared + summary(lm(y~x2))$r.squared
должно быть не меньше 1., но, очевидно, я не прав ..За исключением нижней границы, которая равна 0,3 или 0,4, в зависимости от того, какая переменная сначала входит в модель, вы не можете сказать много. Уровень во многом зависит от информации, которую вторая переменная вносит в модель. Под информацией мы подразумеваем, конечно, объясненное изменение в ответе.R2
Существует одна концепция, которая имеет решающее значение в этом отношении, и это корреляция между предикторами. Если корреляция велика, новая переменная не только ничего не принесет в модель, но и усложнит вывод для существующих переменных, так как оценки станут неточными (мультиколлинеарность). По этой причине мы в идеале предпочли бы, чтобы новая переменная была ортогональной к другим. Вероятность того, что это произойдет в наблюдательных исследованиях, невелика, но это может быть достигнуто в контролируемых условиях, например, когда вы строите свой собственный эксперимент.
Но как точно определить количественно новую информацию, которую переменная принесет в модель? Один широко используемый показатель , который принимает все это во внимание , является частичным R 2 . Если вы знакомы с ANOVA линейной модели, это не что иное, как пропорциональное уменьшение суммы ошибок квадратов, которое вы добьетесь, включив эту переменную в вашу модель. Высокие проценты желательны, в то время как низкие, вероятно, заставят вас думать, является ли это правильным курсом действий.R2
Таким образом, как @cardinal указал в комментариях, ваш новый коэффициент детерминации может достигать 1. Он также может составлять 0,400001. Невозможно сказать без дополнительной информации.
источник
Коэффициент детерминации в множественной линейной регрессии. В множественной линейной регрессии коэффициент детерминации может быть записан в терминах парных корреляций для переменных с использованием квадратичной формы:
источник