Мой набор данных ( ) имеет зависимую переменную (DV), пять независимых «базовых» переменных (P1, P2, P3, P4, P5) и одну независимую интересующую переменную (Q).
Я запустил линейные регрессии OLS для следующих двух моделей:
DV ~ 1 + P1 + P2 + P3 + P4 + P5
-> R-squared = 0.125
DV ~ 1 + P1 + P2 + P3 + P4 + P5 + Q
-> R-squared = 0.124
Т.е. добавление предиктора Q уменьшило величину дисперсии, объясненной в линейной модели. Насколько я понимаю, этого не должно быть .
Для ясности, это значения R-квадрата, а не скорректированные значения R-квадрата.
Я проверил значения R-квадрат с помощью Jasp и языка Python statsmodels .
Есть ли причина, по которой я мог видеть это явление? Возможно, что-то относящееся к методу OLS?
Ответы:
Может быть, у вас пропущены значения
Q
, которые автоматически удаляются? Это повлияет на выборку, сделав две регрессии несопоставимыми.источник