Должны ли доверительные интервалы для коэффициентов линейной регрессии основываться на нормальном или

18

Давайте иметь некоторую линейную модель, например, просто ANOVA:

# data generation
set.seed(1.234)                      
Ng <- c(41, 37, 42)                    
data <- rnorm(sum(Ng), mean = rep(c(-1, 0, 1), Ng), sd = 1)      
fact <- as.factor(rep(LETTERS[1:3], Ng)) 

m1 = lm(data ~ 0 + fact)
summary(m1)

Результат таков:

Call:
lm(formula = data ~ 0 + fact)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.30047 -0.60414 -0.04078  0.54316  2.25323 

Coefficients:
      Estimate Std. Error t value Pr(>|t|)    
factA  -0.9142     0.1388  -6.588 1.34e-09 ***
factB   0.1484     0.1461   1.016    0.312    
factC   1.0990     0.1371   8.015 9.25e-13 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.8886 on 117 degrees of freedom
Multiple R-squared: 0.4816,     Adjusted R-squared: 0.4683 
F-statistic: 36.23 on 3 and 117 DF,  p-value: < 2.2e-16 

Сейчас я пробую два разных метода, чтобы оценить доверительный интервал этих параметров.

c = coef(summary(m1))

# 1st method: CI limits from SE, assuming normal distribution
cbind(low = c[,1] - qnorm(p = 0.975) * c[,2], 
    high = c[,1] + qnorm(p = 0.975) * c[,2])

# 2nd method
confint(m1)

Вопросов:

  1. Каково распределение оценочных коэффициентов линейной регрессии? Нормальный или t ?
  2. Почему оба метода дают разные результаты? Предполагая нормальное распределение и правильный SE, я ожидаю, что оба метода будут иметь одинаковый результат.

Большое спасибо!

данные ~ 0 + факт

РЕДАКТИРОВАТЬ после ответа :

Ответ точный, это даст точно такой же результат, как и confint(m1)!

# 3rd method
cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], 
    high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])
любознательный
источник
связанные: stats.stackexchange.com/questions/111559/…
любопытно

Ответы:

19

(1) Когда ошибки нормально распределены и их дисперсия не известна, то β - β 0 имеетт-распределение при нулевой гипотезечтоβ0является истинным коэффициентом регрессии. По умолчанию втомчтобы проверитьбета0=0, так чтот-статистик сообщили Есть только β

β^β0se(β^)
tβ0Rβ0=0t
β^se(β^)

Следует отметить, что при некоторых условиях регулярности приведенная выше статистика всегда асимптотически нормально распределяется, независимо от того, являются ли ошибки нормальными или известна дисперсия ошибок.

(2) Причина, по которой вы получаете разные результаты, заключается в том, что процентили нормального распределения отличаются от процентилей -распределения. Следовательно, множитель, который вы используете перед стандартной ошибкой, отличается, что, в свою очередь, дает разные доверительные интервалы.t

В частности, напомним, что доверительный интервал с использованием нормального распределения равен

β^±zα/2se(β^)

zα/2α/295%α=.05zα/21.96t

β^±tα/2,npse(β^)

tα/2,nptnpnpntα/2,npzα/2

t5300p=1tz

введите описание изображения здесь

макрос
источник
Ага!! Хорошая работа! (+1)
gui11aume
Макро, спасибо за ответ. Но: вы говорите о распределении статистики T, тогда как я спрашивал о распределении коэффициента регрессии. Насколько я понимаю, коэффициент регрессии - это распределение, характеризуемое его средним значением (оценка коэффициента) и его стандартной ошибкой. Я спросил об этом распределении, а не о тестовой статистике распространения. Я мог бы что-то упустить, поэтому, пожалуйста, попробуйте объяснить более очевидным способом :) Спасибо
Любопытно
2
β^β0se(β^)
tβ^tβ0se(β^)β^
Вы совершенно правы! Это даст точно такой же результат, как confint(m1)и для небольших выборок! cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])
Любопытно
β^β^β0β0t