Серая полоса - это доверительная полоса для линии регрессии. Я не достаточно знаком с ggplot2, чтобы точно знать, является ли это доверительным интервалом 1 SE или 95% доверительным интервалом , но я считаю, что это первый ( Правка: очевидно, это 95% -й доверительный интервал ). Полоса доверия дает представление о неопределенности вашей линии регрессии. В некотором смысле, вы можете подумать, что истинная линия регрессии столь же высока, как и верх этой полосы, так же низка, как и нижняя, или колеблется по-другому внутри полосы. (Обратите внимание, что это объяснение должно быть интуитивно понятным и не является технически правильным, но большинству людей трудно следовать полностью правильному объяснению.)
Вы должны использовать доверительный интервал, чтобы помочь вам понять / подумать о линии регрессии. Вы не должны использовать это, чтобы думать о точках необработанных данных. Помните, что линия регрессии представляет среднее значение в каждой точке X (если вам нужно понять это более полно, это может помочь вам прочитать мой ответ здесь: Какова интуиция за условными распределениями Гаусса? ). С другой стороны, вы, конечно, не ожидаете, что каждая наблюдаемая точка данных будет равна условному среднему значению. Другими словами, вам не следует использовать доверительный интервал для оценки того, является ли точка данных выбросом. YИкс
( Изменить: эта заметка является второстепенной по отношению к основному вопросу, но пытается прояснить вопрос для ОП. )
Полиномиальная регрессия не является нелинейной регрессией, хотя то, что вы получаете, не выглядит как прямая линия. Термин «линейный» имеет очень конкретное значение в математическом контексте, в частности, что оцениваемые вами параметры - бета-версии - являются коэффициентами. Полиномиальная регрессия просто означает, что ваши ковариаты , X 2 , X 3 и т. Д., То есть они имеют нелинейное отношение друг к другу, но ваши бета-версии все еще являются коэффициентами, поэтому это все еще линейная модель. Если бы ваши беты были, скажем, экспонентами, то у вас была бы нелинейная модель. ИксИкс2Икс3
ИксИкс2Икс2Икс1Икс2Икс( Х, Y )
Y= β0+ β1Икс+ ε
пер( π( Y)1 - π( Y)) = β0+ β1Икс
π( Y) = exp( β0+ β1Икс)1 + опыт(β0+ β1Икс)
βββРазница между логитом и пробитами .)
Чтобы добавить к уже существующим ответам, полоса представляет доверительный интервал среднего, но из вашего вопроса вы явно ищете интервал прогнозирования . Интервалы прогнозирования - это диапазон, который, если вы нарисовали одну новую точку, теоретически эта точка будет содержаться в диапазоне X% времени (где вы можете установить уровень X).
Мы можем сгенерировать тот же тип графика, который вы показали в своем первоначальном вопросе, с доверительным интервалом вокруг среднего значения сглаженной линии регрессии Лесса (по умолчанию это 95% доверительный интервал).
Для быстрого и грязного примера интервалов прогнозирования здесь я генерирую интервал прогнозирования, используя линейную регрессию со сглаживающими сплайнами (так что это не обязательно прямая линия). С примерами данных это довольно неплохо: для 100 точек только 4 находятся за пределами диапазона (и я указал 90% -ный интервал в функции прогнозирования).
Теперь еще несколько заметок. Я согласен с Ладиславом в том, что вам следует рассмотреть методы прогнозирования временных рядов, поскольку у вас есть регулярные ряды, начиная с какого-то 2007 года, и из вашего графика ясно, что если вы внимательно посмотрите, есть сезонность (соединение точек сделало бы это более ясным). Для этого я хотел бы предложить проверить на forecast.stl функцию в прогнозном пакете , где вы можете выбрать сезонное окно и обеспечивает надежное разложение сезонности и тенденции , используя лесс. Я упоминаю надежные методы, потому что ваши данные имеют несколько заметных всплесков.
В более общем случае для данных, не относящихся к временным рядам, я бы рассмотрел другие надежные методы, если у вас есть данные со случайными выбросами. Я не знаю, как генерировать интервалы прогнозирования, используя Лесс напрямую, но вы можете рассмотреть квантильную регрессию (в зависимости от того, насколько экстремальными должны быть интервалы прогнозирования). В противном случае, если вы просто хотите, чтобы размер был потенциально нелинейным, вы можете рассмотреть сплайны, чтобы функция могла изменяться в зависимости от x.
источник
Что ж, синяя линия - это плавная локальная регрессия . Вы можете контролировать волнистость линии с помощью
span
параметра (от 0 до 1). Но ваш пример - это «временные ряды», поэтому постарайтесь найти более подходящие методы анализа, а не только плавную кривую (которая должна служить только для выявления возможной тенденции).Согласно документации
ggplot2
(и книгам в комментариях ниже): stat_smooth является доверительным интервалом из гладких серого цвета. Если вы хотите отключить доверительный интервал, используйте se = FALSE.источник