Давайте иметь некоторую линейную модель, например, просто ANOVA:
# data generation
set.seed(1.234)
Ng <- c(41, 37, 42)
data <- rnorm(sum(Ng), mean = rep(c(-1, 0, 1), Ng), sd = 1)
fact <- as.factor(rep(LETTERS[1:3], Ng))
m1 = lm(data ~ 0 + fact)
summary(m1)
Результат таков:
Call:
lm(formula = data ~ 0 + fact)
Residuals:
Min 1Q Median 3Q Max
-2.30047 -0.60414 -0.04078 0.54316 2.25323
Coefficients:
Estimate Std. Error t value Pr(>|t|)
factA -0.9142 0.1388 -6.588 1.34e-09 ***
factB 0.1484 0.1461 1.016 0.312
factC 1.0990 0.1371 8.015 9.25e-13 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.8886 on 117 degrees of freedom
Multiple R-squared: 0.4816, Adjusted R-squared: 0.4683
F-statistic: 36.23 on 3 and 117 DF, p-value: < 2.2e-16
Сейчас я пробую два разных метода, чтобы оценить доверительный интервал этих параметров.
c = coef(summary(m1))
# 1st method: CI limits from SE, assuming normal distribution
cbind(low = c[,1] - qnorm(p = 0.975) * c[,2],
high = c[,1] + qnorm(p = 0.975) * c[,2])
# 2nd method
confint(m1)
Вопросов:
- Каково распределение оценочных коэффициентов линейной регрессии? Нормальный или ?
- Почему оба метода дают разные результаты? Предполагая нормальное распределение и правильный SE, я ожидаю, что оба метода будут иметь одинаковый результат.
Большое спасибо!
данные ~ 0 + факт
РЕДАКТИРОВАТЬ после ответа :
Ответ точный, это даст точно такой же результат, как и confint(m1)
!
# 3rd method
cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2],
high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])
r
regression
confidence-interval
любознательный
источник
источник
Ответы:
(1) Когда ошибки нормально распределены и их дисперсия не известна, то β - β 0 имеетт-распределение при нулевой гипотезечтоβ0является истинным коэффициентом регрессии. По умолчанию втомчтобы проверитьбета0=0, так чтот-статистик сообщили Есть только β
R
Следует отметить, что при некоторых условиях регулярности приведенная выше статистика всегда асимптотически нормально распределяется, независимо от того, являются ли ошибки нормальными или известна дисперсия ошибок.
(2) Причина, по которой вы получаете разные результаты, заключается в том, что процентили нормального распределения отличаются от процентилей -распределения. Следовательно, множитель, который вы используете перед стандартной ошибкой, отличается, что, в свою очередь, дает разные доверительные интервалы.t
В частности, напомним, что доверительный интервал с использованием нормального распределения равен
источник
confint(m1)
и для небольших выборок!cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])