Формула для 95% доверительного интервала для

13

Я гуглил и искал по stats.stackexchange, но не могу найти формулу для расчета 95% доверительного интервала для значения для линейной регрессии. Кто-нибудь может это предоставить?R2

Еще лучше, скажем, я выполнил линейную регрессию ниже в R. Как бы я вычислил 95% доверительный интервал для значения используя код R.R2

lm_mtcars <- lm(mpg ~ wt, mtcars)
Лучиано
источник
1
Хорошо, вы знаете, что соотношение между корреляцией и R 2 заключается в том, что вы возводите в квадрат коэффициент корреляции, чтобы получить R 2, так почему бы не рассчитать доверительный интервал для r, а затем возвести в квадрат нижнюю и верхнюю границы интервала? rR2R2r
1
@ZERO: это будет работать в простой линейной регрессии, то есть с одним предиктором и перехватом. Это не будет работать для множественной линейной регрессии с более чем одним предиктором.
Стефан Коласса
@StephanKolassa, очень верно! Я предполагаю, что я основывал это на его Rкоде, где есть только один регрессор, но это очень хороший момент для пояснения.
Например, вы можете использовать очень маленькую R-функцию github.com/mayer79/R-confidence-intervals-R-squared, основанную на свойствах нецентрального F-распределения.
Майкл М

Ответы:

16

Вы всегда можете загрузить его:

> library(boot)
> foo <- boot(mtcars,function(data,indices)
        summary(lm(mpg~wt,data[indices,]))$r.squared,R=10000)

> foo$t0
[1] 0.7528328

> quantile(foo$t,c(0.025,0.975))
     2.5%     97.5% 
0.6303133 0.8584067

Carpenter & Bithell (2000, Статистика в медицине) предоставляют читаемое введение в начальную загрузку доверительных интервалов, хотя и не ориентированы специально на .R2

Стефан Коласса
источник
1
n=32k=1(0.546,0.960)2
Также стоит отметить, что вы можете получить другие типы доверительных интервалов (например, BCa) из дистрибутива с начальной загрузкой, используя boot.ci().
Джеффри Джирард
7

В R вы можете использовать CI.Rsq()функцию, предоставляемую психометрическим пакетом. Что касается формулы, которую он применяет, см. Cohen et al. (2003) , Прикладной множественный регрессионный / корреляционный анализ для поведенческих наук , с. 88:

SER2=4R2(1R2)2(nk1)2(n21)(n+3)

R2±2SER2

Дерден
источник
3
(1R2)R2R2nk1>60k+1считает пересечение плюс количество независимых переменных.) Было бы полезно увидеть обработанный пример, поддерживаемый моделированием, потому что этот интервал выглядит слишком широким.
whuber
Согласно Уишарту (1931) формула не подходит для ненормальных распределений.
abukaj