Доверительные и прогнозные интервалы линейной регрессионной модели

9

Итак, я пытаюсь понять линейную регрессию. У меня есть набор данных, и все выглядит хорошо, но я в замешательстве. Это моя линейная модель-сводка:

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 0.2068621  0.0247002   8.375 4.13e-09 ***
temp        0.0031074  0.0004779   6.502 4.79e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874 
F-statistic: 42.28 on 1 and 28 DF,  p-value: 4.789e-07 

Таким образом, значение p действительно низкое, что означает, что очень маловероятно, что корреляция между x, y будет случайно получена. Если я нарисую его, а затем нарисую линию регрессии, она будет выглядеть следующим образом: http://s14.directupload.net/images/120923/l83eellv.png (Если бы это было изображение, но я - как новый пользователь - в настоящее время нет разрешено публиковать) Синие линии = доверительный интервал Зеленые линии = интервал прогнозирования

Теперь многие пункты не попадают в доверительный интервал, почему это произошло? Я думаю, что ни одна из точек данных не попадает на линию регрессии, потому что они просто довольно далеко друг от друга, но в чем я не уверен: это реальная проблема? Они все еще находятся вокруг линии регрессии, и вы можете полностью увидеть паттерн. Но достаточно ли этого? Я пытаюсь понять это, но я продолжаю задавать себе одни и те же вопросы снова и снова.

О чем я думал до сих пор: доверительный интервал говорит о том, что если вы вычисляете CI снова и снова, в 95% случаев истинное среднее значение попадает в CI. Итак: Это не проблема, что ДП не попадают в него, так как это на самом деле не средство. Интервал прогнозирования, с другой стороны, говорит, что если вы рассчитываете ПИ снова и снова, в 95% случаев истинное ЗНАЧЕНИЕ попадает в интервал. Таким образом, очень важно иметь точки в нем (которые у меня есть). Тогда я прочитал, что PI всегда должен иметь более широкий диапазон, чем CI. Это почему? Вот что я сделал:

conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))

и тогда я нанес это на карту:

matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")

Теперь, если я рассчитываю CI и PI для дополнительных данных, не имеет значения, насколько широко я выбираю диапазон, я получаю те же строки, что и выше. Я не понимаю. Что это обозначает? Это будет тогда:

conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))

для нового х я выбрал разные последовательности. Если последовательность имеет # количество наблюдений, отличных от переменных в моей регрессии, я получаю предупреждение. С чего бы это?

Лайза
источник

Ответы:

3

Я понимаю некоторые ваши вопросы, но другие не ясны. Позвольте мне ответить и изложить некоторые факты, и, возможно, это прояснит все ваше замешательство.

Подгонка у вас замечательно хороша. Доверительные интервалы должны быть очень узкими. Существует два типа областей достоверности, которые можно рассмотреть. Область bsimultanoues, которая предназначена для охвата всей функции истинной регрессии с заданным уровнем достоверности.

Другие, на которые вы смотрите, это доверительные интервалы для подогнанных точек регрессии. Они предназначены только для покрытия установленного значения y при заданном значении (значениях) ковариат (ов). Они не предназначены для охвата значений y при других значениях ковариат. На самом деле, если интервалы очень узкие, как и должно быть в вашем случае, они не будут охватывать многие, если какие-либо из точек данных, когда вы уклоняетесь от фиксированных значений ковариат (ов). Для этого типа покрытия вам нужно получить кривые доверия одновременно (верхняя и нижняя границы).

Теперь верно, что если вы прогнозируете ay при заданном значении ковариаты, и вам нужен тот же уровень достоверности для интервала прогнозирования, какой вы использовали для доверительного интервала для y при данном значении ковариаты, интервал будет шире. Причина в том, что модель говорит вам, что будет добавлена ​​изменчивость, потому что новый y будет иметь свою собственную независимую ошибку, которая должна быть учтена в интервале. Этот компонент ошибки не входит в оценки, основанные на данных, использованных в подборке.

Майкл Р. Черник
источник
Извините, я до сих пор не совсем понимаю. Вы объяснили 2 типа доверительных интервалов, но какие из них вы имеете в виду, когда говорите «те, на которые я смотрю»? b / c Я составил и прогноз, и доверительный интервал, и у меня проблемы с пониманием разницы. Кроме того, я добавил несколько R-команд в свой предыдущий пост, чтобы уточнить, что я делал
Лиза
Кривые не дают понять, получены ли доверительные полосы путем построения одновременных доверительных кривых, или просто обеспечивают плавное соединение отдельных доверительных интервалов. Если бы они были одновременными, вы бы не увидели так много подходящих точек за пределами кривой. Но, как я уже говорил, это может произойти с отдельными интервалами. Я еще не посмотрел на редактирование, которое включает в себя код R.
Майкл Р. Черник
Я недостаточно хорошо знаю R, чтобы ответить на конкретные вопросы. То, что я не знаю, что эксперт по R может сказать вам, является ли кривые достоверности и кривые предсказания соединяют отдельные доверительные интервалы или генерируют одновременные кривые. Также ваш код делает то, что вы собираетесь делать?
Майкл Р. Черник