Форма доверительного интервала для прогнозируемых значений в линейной регрессии

69

Я заметил, что доверительный интервал для предсказанных значений в линейной регрессии имеет тенденцию быть узким вокруг среднего значения предиктора, а жирность - вокруг минимального и максимального значений предиктора. Это можно увидеть на графиках этих 4 линейных регрессий:

введите описание изображения здесь

Сначала я думал, что это потому, что большинство значений предикторов были сосредоточены вокруг среднего значения предиктора. Однако затем я заметил, что узкая середина доверительного интервала будет иметь место, даже если многие значения были сконцентрированы вокруг крайностей предиктора, как в линейной регрессии внизу слева, где множество значений предиктора сосредоточены вокруг минимума предсказатель.

Кто-нибудь может объяснить, почему доверительные интервалы для прогнозируемых значений в линейной регрессии имеют тенденцию быть узкими в середине и жирными в крайних?

Лучиано
источник

Ответы:

86

Я буду обсуждать это в интуитивно понятных терминах.

И доверительные интервалы, и интервалы прогнозирования в регрессии учитывают тот факт, что перехват и наклон неопределенны - вы оцениваете значения из данных, но значения совокупности могут отличаться (если вы взяли новую выборку, вы получите другую оценку ценности).

Линия регрессии будет проходить через , и лучше всего сосредоточить обсуждение об изменениях подгонки вокруг этой точки - то есть подумать о линии (в этой формулировке ).(x¯,y¯)y=a+b(xx¯)a^=y¯

Если бы линия проходила через эту точку , но наклон был немного выше или ниже (то есть, если высота линии в среднем была фиксированной, но наклон был немного другим), что бы это выглядит как?(x¯,y¯)

Вы увидите, что новая линия будет двигаться дальше от текущей линии рядом с концами, чем около середины, создавая вид наклонного X, который пересекается в среднем (как каждая из фиолетовых линий ниже относительно красной линии). ; фиолетовые линии представляют предполагаемый уклон две стандартные ошибки уклона).±

введите описание изображения здесь

Если бы вы нарисовали коллекцию таких линий с наклоном, немного отличающимся от его оценки, вы бы увидели распределение прогнозируемых значений вблизи концов, «разветвленных» (представьте, например, область между двумя фиолетовыми линиями, закрашенными серым, потому что мы снова взяли пробы и нарисовали много таких склонов около предполагаемого; мы можем почувствовать это, загрузив линию через точку ( )). Вот пример использования 2000 повторных выборок с параметрической начальной загрузкой:x¯,y¯

введите описание изображения здесь

Если вместо этого вы принимаете во внимание неопределенность в константе (линия проходит близко, но не совсем через ), это перемещает линию вверх и вниз, поэтому интервалы для среднего значения при любом будут сидеть выше и ниже подогнанной линии.(x¯,y¯)x

введите описание изображения здесь

(Здесь фиолетовые линии - это две стандартные ошибки постоянного члена по обе стороны от оценочной линии).±

Когда вы делаете оба сразу (линия может быть чуть выше или ниже, а уклон может быть немного круче или пологее), вы получаете некоторое разброс среднего значения из-за неопределенности в постоянный, и вы получаете дополнительное разветвление из-за неопределенности наклона, между которыми создается характерная гиперболическая форма ваших графиков.x¯

Это интуиция.


Теперь, если хотите, мы можем рассмотреть небольшую алгебру (но это не обязательно):

Это на самом деле квадратный корень из суммы квадратов этих двух эффектов - вы можете увидеть это в формуле доверительного интервала. Давайте соберем кусочки:

Стандартная ошибка с известным является (помните здесь ожидаемое значение в среднем , а не обычный отрезок, это просто стандартная ошибка в среднем). Это стандартная ошибка положения линии в среднем ( ).abσ/nayxx¯

стандартная ошибка с известным является . Эффект неопределенности наклона при некотором значении умножается на то, как далеко вы находитесь от среднего значения ( ) (потому что изменение уровня - это изменение наклона, умноженное на расстояние, на которое вы перемещаетесь), давая .baσ/i=1n(xix¯)2xxx¯(xx¯)σ/i=1n(xix¯)2

Теперь общий эффект просто квадратный корень из суммы квадратов этих двух вещей (почему? Потому что дисперсии некоррелированных вещей добавить, и если вы пишете свою линию в форм оценки и не коррелированы, поэтому общая стандартная ошибка - это квадратный корень из общей дисперсии, а дисперсия - это сумма дисперсий компонентов, то естьy=a+b(xx¯)ab

(σ/n)2+[(xx¯)σ/i=1n(xix¯)2]2

Небольшая простая манипуляция дает обычный термин для стандартной ошибки оценки среднего значения при :x

σ1n+(xx¯)2i=1n(xix¯)2

Если вы нарисуете это как функцию от , вы увидите, что она образует кривую (выглядит как улыбка) с минимумом в , который становится больше при выходе. Это то, что добавляется / вычитается из подобранной линии (ну, кратно, чтобы получить желаемый уровень достоверности).xx¯

[С интервалами прогнозирования, есть также изменение в положении из-за изменчивости процесса; это добавляет еще один термин, который сдвигает пределы вверх и вниз, делая гораздо более широкий разброс, и поскольку этот термин обычно доминирует над суммой под квадратным корнем, кривизна гораздо менее выражена.]

Glen_b
источник
Спасибо Glen_b, это очень интуитивно понятно. Это не приходило мне в голову, вот что составляет доверительный интервал.
Лучано
1

Принятый ответ приносит действительно необходимую интуицию. Это только пропускает визуализацию сочетания как линейных, так и угловых неопределенностей, что очень хорошо возвращает нас к графикам в вопросе. Так что вот так. Давайте назовем a'и b'неопределенности a, и b, соответственно, количества, обычно возвращаемые любым популярным пакетом статистики. Затем у нас есть, помимо наилучшего соответствия a*x + b, четыре возможных линии для рисования (в данном случае 1 ковариата х):

  • (a+a')*x + b+b'
  • (a-a')*x + b-b'
  • (a+a')*x + b-b'
  • (a-a')*x + b+b'

Это четыре цветные линии на графике ниже. Черная толстая линия посередине представляет лучшее соответствие без неопределенностей. Таким образом, чтобы нарисовать «гиперболические» штриховки, нужно взять максимальное и минимальное значения этих четырех линий, которые на самом деле являются четырьмя отрезками, а кривых нет (интересно, как точно эти кривые участки рисуют кривую, не кажется любой точный для меня).

Я надеюсь, что это добавляет что-то к уже хорошему ответу от @Glen_b.

введите описание изображения здесь

Ouranos
источник