Что такое скорректированная формула R-квадрата в lm в R и как ее следует интерпретировать?

35

Какая точная формула используется в R lm() для Скорректированного R-квадрата? Как я могу интерпретировать это?

Скорректированные R-квадрат формулы

Кажется, существует несколько формул для расчета скорректированного R-квадрата.

Формула Вери: $1-(1-R^2)\frac{(n-1)}{(n-v)}$
Формула Макнемара: $1-(1-R^2)\frac{(n-1)}{(n-v-1)}$
Формула Господа: $1-(1-R^2)\frac{(n+v-1)}{(n-v-1)}$
Формула Штейна: $1-\big[\frac{(n-1)}{(n-k-1)}\frac{(n-2)}{(n-k-2)}\frac{(n+1)}{n}\big](1-R^2)$

Описание учебников

Согласно учебнику Филда « Обнаружение статистики с использованием R» (2012, стр. 273) R использует уравнение Вэрри, которое «говорит нам, сколько дисперсии в Y будет учтено, если модель была получена из совокупности, из которой была взята выборка». Он не дает формулу для Wherry. Он рекомендует использовать формулу Штейна (вручную), чтобы проверить, насколько хорошо модель выполняет перекрестную проверку.
Kleiber / Zeileis, Applied Econometrics with R (2008, p. 59) утверждают, что это «скорректированный R-квадрат Тейла», и не говорят точно, как его интерпретация отличается от множественного R-квадрата.
Далгаард, Вводная статистика с R (2008, стр. 113) пишет, что «если вы умножите [скорректированный R-квадрат] на 100%, это можно интерпретировать как«% уменьшения дисперсии »». Он не говорит, какой формуле это соответствует.

Ранее я думал и читал широко, что R-квадрат штрафует за добавление дополнительных переменных в модель. Теперь использование этих разных формул, по-видимому, требует разных интерпретаций. Я также посмотрел на связанный вопрос о переполнении стека (в чем разница между множественным R-квадратом и скорректированным R-квадратом в регрессии по методу наименьших квадратов с одной переменной? ) И статистическим словарем школы Уортона в UPenn .

Вопросов

Какая формула используется для скорректированного r-квадрата R lm() ?
Как я могу интерпретировать это?

r regression r-squared lm shrinkage Gung - Восстановить Монику
источник

8

из summary.lm ():, ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf)где ans $ r.squared = R ^ 2; n = n, rdf = остаток df, df.int = перехватить df (0 или 1).

EDi

Я собираюсь дать ответ на реальную проблему здесь, а не "что за R ^ 2 ...". Информация, которую вам (и многим другим) не хватает, такова: все пакеты R, даже ядро, делают исходный код доступным. Даже материал, скомпилированный в дистрибутивах, доступен в {packagenames} .tar.gz в CRAN или другом репозитории.

Карл Виттофт

ОП здесь: Спасибо за этот отличный вклад. Как насчет моего второго вопроса: как я могу это интерпретировать? Я прочитал очень много разных интерпретаций Аджа. R-квадрат, который иногда кажется основанным на формуле, которая может не соответствовать формуле Wherry?

29

1. Какую формулу `lm`в R использует для скорректированного r-квадрата?

Как уже упоминалось, ввод текста summary.lmдаст вам код, который R использует для вычисления скорректированного квадрата R. Извлекая наиболее релевантную строку, вы получаете:

ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf)

что соответствует в математической записи:

R_{a d j}^{2} = 1 - (1 - R^{2}) \frac{n - 1}{n - p - 1}

$R^2_{adj} = 1 - (1 - R^2) \frac{n-1}{n-p-1}$

df.int=1 $n$ $p$ rdfn-p-1

$n-p$ $n-p-1$

2. Почему так много скорректированных формул r-квадрата?

$R^2_{adj}$ $\rho^2$ $\rho^2$

$R^2$ $R^2_{adj}$

$R^2_{adj}$

$R^2_{adj}$ $\rho^2$ $\rho^2$ $R^2$

Ссылки

$R^2$

Джером англим
источник

9

Относительно вашего первого вопроса: если вы не знаете, как он рассчитывается, посмотрите на код! Если вы наберете summary.lmв своей консоли, вы получите код для этой функции. Если вы обезжиренное Повсеместно код , который вы найдете строку: ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf). Если вы посмотрите несколько строк выше этой строки, вы заметите, что:

ans$r.squared $R^2$
n количество остатков = количество наблюдений
df.int 0 или 1 (в зависимости от того, есть ли у вас перехват)
rdf ваш остаточный дф

$R^2$ $R^2$

EDi
источник