Понимание формы и расчета доверительных полос в линейной регрессии

33

Я пытаюсь понять происхождение изогнутой формы доверительных полос, связанных с линейной регрессией OLS, и как это относится к доверительным интервалам параметров регрессии (наклон и перехват), например (с использованием R):

require(visreg)
fit <- lm(Ozone ~ Solar.R,data=airquality)
visreg(fit)

введите описание изображения здесь

Похоже, что полоса связана с границами линий, рассчитанными с перехватом 2,5%, с наклоном 97,5%, а также с перехватом 97,5% и с наклоном 2,5% (хотя и не совсем):

xnew <- seq(0,400)
int <- confint(fit)
lines(xnew, (int[1,2]+int[2,1]*xnew))
lines(xnew, (int[1,1]+int[2,2]*xnew))

введите описание изображения здесь

Что я не понимаю, так это две вещи:

  1. Как насчет комбинации наклона 2,5% и перехвата 2,5%, а также наклона 97,5% и перехвата 97,5%? Они дают линии, которые явно находятся за пределами полосы, изображенной выше. Может быть, я не понимаю значения доверительного интервала, но если в 95% случаев мои оценки находятся в пределах доверительного интервала, это кажется возможным результатом?
  2. Что определяет минимальное расстояние между верхним и нижним пределами (т. Е. Близко к точке, где пересекаются две добавленные выше линии)?

Я предполагаю, что оба вопроса возникают, потому что я не знаю / не понимаю, как эти группы фактически рассчитаны.

Как я могу рассчитать верхний и нижний пределы, используя доверительные интервалы параметров регрессии (не полагаясь на предикат () или аналогичную функцию, т.е. вручную)? Я пытался расшифровать функцию предиката l в R, но кодирование мне не под силу. Буду признателен за любые ссылки на соответствующую литературу или объяснения, подходящие для начинающих статистики.

Спасибо.

Дэвид
источник
4
У вас есть два хороших ответа ниже. Если вам нужна дополнительная информация, она может помочь вам прочитать мой ответ здесь: Интервал прогнозирования линейной регрессии , который относится к интервалам прогнозирования, но идея очень похожа.
gung - Восстановить Монику
2
В этом посте приведено подробное интуитивное объяснение: форма доверительного интервала для прогнозируемых значений в линейной регрессии
Glen_b -Reinstate Monica
Т.А. за полезные ответы и отличные ссылки.
Дэвид
пожалуйста, смотрите: stats.stackexchange.com/a/397504/144543
ouranos

Ответы:

19

XsY^X

sY^X=sY|X1n+(XX¯)2i=1n(XiX¯)2

sY|X

sY|X=i=1n(YiY^)2n2

Y^±tν=n2,α/2sY^

YX

β^α^

Alexis
источник
1
Есть ли учебник, объясняющий, откуда взялись эти формулы?
Майкл Гоерз
1
@MichaelGoerz Любой учебник по вводной статистике, биостатистике, эконометрике и т. Д., Который охватывает обычную метод наименьших квадратов, должен иметь линейную регрессию.
Алексис
У меня есть Вассерман - Вся статистика, Джеймс и др. - Введение в статистическое обучение, и Хасти и др. - Элементы статистического обучения. Я не смог найти уравнения для доверительных полос линейной регрессии ни в одной из них. Есть ли у вас номер главы / эквалайзера для какой-либо из них или какой-либо другой широко доступной книги?
Майкл Гоерз
2
Ни одна из упомянутых вами книг не относится к тем книгам, которые обсуждает Алексис. В книге Фокса «Прикладная регрессия» она есть, если я правильно помню.
Glen_b
1
@MichaelGoerz Как и Пагано, М. и Говро, К. (2000). Принципы биостатистики . Duxbury Press, Pacific Grove, CA, 2-е издание и Glantz, SA (2011). учебник по биостатистике . McGraw-Hill Medical, Нью-Йорк, Нью-Йорк, 7-е издание, хотя они не относятся к регрессионным текстам.
Алексис
16

Хороший вопрос Важно понимать эти понятия, и они не просты.

y¯y¯y¯

Когда мы объединяем все доверительные интервалы для каждого возможного x, это дает нам серые полосы, которые вы видите на выходе.

Это означает, что мы на 95% уверены, что истинная линия регрессии лежит где-то в этой серой зоне.

Поскольку доверительные интервалы рассчитываются с использованием 95% доверительных интервалов для каждой отдельной точки, это очень тесно связано с 95% ДИ для перехвата. Фактически, при x = 0 края серой зоны будут точно совпадать с 95% -ным доверительным интервалом для перехвата, потому что именно так мы сгенерировали доверительные полосы. Вот почему линии, которые вы добавили выше, попадают на край серой полосы влево.

Тем не менее, наклон немного отличается. Как вы уже видели выше, это влияет на пределы, но наклон и перехват не разделяются в линейной регрессии. Таким образом, вы не можете сказать "ну что, если перехват был на минимуме диапазона CI, а наклон был также на минимуме?" Эта линия будет генерировать точки, которые находятся за пределами наших 95% -ных КИ для многих х. Это означает, что мы на 95% уверены, что это не наша истинная линия регрессии.

x¯sy^x(xx¯)x=x¯ это значение равно нулю, поэтому стандартная ошибка меньше.

Здесь есть достойное место, которое может помочь вам визуализировать некоторые из этих вещей: http://www.stat.duke.edu/~tjl13/s101/slides/unit6lec3H.pdf

Дункан
источник
2
Я думаю, что я это исправил - заменил yhats на ybars. Это более правильно? Я всегда облажался.
Дункан
Ta. Одна вещь, которая остается неясной для меня, состоит в том, как сделать следующие два утверждения последовательными: «Что это функционально означает, что мы на 95% уверены, что истинная линия регрессии лежит где-то в этой серой зоне». vs "[...] доверительные интервалы относительно пересечения и наклона - это еще другие величины". Если первое утверждение верно, должна быть некоторая (математическая?) Связь между КИ перехвата и наклона и полосой, изображенной выше? Я предполагаю, что это относится к части моего вопроса: как я могу рассчитать (если возможно) вышеупомянутую полосу, используя КИ наклона и перехвата?
Дэвид
1
x¯ они будут отклоняться от линий, которые генерируют экстремальные значения CI для наклона и пересечения.
Дункан
Приятный понятный пост и приятная ссылка! +1
лесничий