Я пытаюсь понять происхождение изогнутой формы доверительных полос, связанных с линейной регрессией OLS, и как это относится к доверительным интервалам параметров регрессии (наклон и перехват), например (с использованием R):
require(visreg)
fit <- lm(Ozone ~ Solar.R,data=airquality)
visreg(fit)
Похоже, что полоса связана с границами линий, рассчитанными с перехватом 2,5%, с наклоном 97,5%, а также с перехватом 97,5% и с наклоном 2,5% (хотя и не совсем):
xnew <- seq(0,400)
int <- confint(fit)
lines(xnew, (int[1,2]+int[2,1]*xnew))
lines(xnew, (int[1,1]+int[2,2]*xnew))
Что я не понимаю, так это две вещи:
- Как насчет комбинации наклона 2,5% и перехвата 2,5%, а также наклона 97,5% и перехвата 97,5%? Они дают линии, которые явно находятся за пределами полосы, изображенной выше. Может быть, я не понимаю значения доверительного интервала, но если в 95% случаев мои оценки находятся в пределах доверительного интервала, это кажется возможным результатом?
- Что определяет минимальное расстояние между верхним и нижним пределами (т. Е. Близко к точке, где пересекаются две добавленные выше линии)?
Я предполагаю, что оба вопроса возникают, потому что я не знаю / не понимаю, как эти группы фактически рассчитаны.
Как я могу рассчитать верхний и нижний пределы, используя доверительные интервалы параметров регрессии (не полагаясь на предикат () или аналогичную функцию, т.е. вручную)? Я пытался расшифровать функцию предиката l в R, но кодирование мне не под силу. Буду признателен за любые ссылки на соответствующую литературу или объяснения, подходящие для начинающих статистики.
Спасибо.
Ответы:
источник
Хороший вопрос Важно понимать эти понятия, и они не просты.
Когда мы объединяем все доверительные интервалы для каждого возможного x, это дает нам серые полосы, которые вы видите на выходе.
Это означает, что мы на 95% уверены, что истинная линия регрессии лежит где-то в этой серой зоне.
Поскольку доверительные интервалы рассчитываются с использованием 95% доверительных интервалов для каждой отдельной точки, это очень тесно связано с 95% ДИ для перехвата. Фактически, при x = 0 края серой зоны будут точно совпадать с 95% -ным доверительным интервалом для перехвата, потому что именно так мы сгенерировали доверительные полосы. Вот почему линии, которые вы добавили выше, попадают на край серой полосы влево.
Тем не менее, наклон немного отличается. Как вы уже видели выше, это влияет на пределы, но наклон и перехват не разделяются в линейной регрессии. Таким образом, вы не можете сказать "ну что, если перехват был на минимуме диапазона CI, а наклон был также на минимуме?" Эта линия будет генерировать точки, которые находятся за пределами наших 95% -ных КИ для многих х. Это означает, что мы на 95% уверены, что это не наша истинная линия регрессии.
Здесь есть достойное место, которое может помочь вам визуализировать некоторые из этих вещей: http://www.stat.duke.edu/~tjl13/s101/slides/unit6lec3H.pdf
источник