Какая точная формула используется в R lm()
для Скорректированного R-квадрата? Как я могу интерпретировать это?
Скорректированные R-квадрат формулы
Кажется, существует несколько формул для расчета скорректированного R-квадрата.
- Формула Вери:
- Формула Макнемара:
- Формула Господа:
- Формула Штейна:
Описание учебников
- Согласно учебнику Филда « Обнаружение статистики с использованием R» (2012, стр. 273) R использует уравнение Вэрри, которое «говорит нам, сколько дисперсии в Y будет учтено, если модель была получена из совокупности, из которой была взята выборка». Он не дает формулу для Wherry. Он рекомендует использовать формулу Штейна (вручную), чтобы проверить, насколько хорошо модель выполняет перекрестную проверку.
- Kleiber / Zeileis, Applied Econometrics with R (2008, p. 59) утверждают, что это «скорректированный R-квадрат Тейла», и не говорят точно, как его интерпретация отличается от множественного R-квадрата.
- Далгаард, Вводная статистика с R (2008, стр. 113) пишет, что «если вы умножите [скорректированный R-квадрат] на 100%, это можно интерпретировать как«% уменьшения дисперсии »». Он не говорит, какой формуле это соответствует.
Ранее я думал и читал широко, что R-квадрат штрафует за добавление дополнительных переменных в модель. Теперь использование этих разных формул, по-видимому, требует разных интерпретаций. Я также посмотрел на связанный вопрос о переполнении стека (в чем разница между множественным R-квадратом и скорректированным R-квадратом в регрессии по методу наименьших квадратов с одной переменной? ) И статистическим словарем школы Уортона в UPenn .
Вопросов
- Какая формула используется для скорректированного r-квадрата R
lm()
? - Как я могу интерпретировать это?
ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf)
где ans $ r.squared = R ^ 2; n = n, rdf = остаток df, df.int = перехватить df (0 или 1).Ответы:
1. Какую формулу
lm
в R использует для скорректированного r-квадрата?Как уже упоминалось, ввод текста
summary.lm
даст вам код, который R использует для вычисления скорректированного квадрата R. Извлекая наиболее релевантную строку, вы получаете:что соответствует в математической записи:
df.int=1
rdf
n-p-1
2. Почему так много скорректированных формул r-квадрата?
Ссылки
источник
Относительно вашего первого вопроса: если вы не знаете, как он рассчитывается, посмотрите на код! Если вы наберете
summary.lm
в своей консоли, вы получите код для этой функции. Если вы обезжиренное Повсеместно код , который вы найдете строку:ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf)
. Если вы посмотрите несколько строк выше этой строки, вы заметите, что:ans$r.squared
n
количество остатков = количество наблюденийdf.int
0 или 1 (в зависимости от того, есть ли у вас перехват)rdf
ваш остаточный дфисточник