Понимание формы доверительного интервала для полиномиальной регрессии (MLR)

11

Мне трудно понять форму доверительного интервала полиномиальной регрессии.

Ниже приведен пример Y^знак равноa+бИкс+сИкс2 . На левом рисунке показана UPV (немасштабированная дисперсия прогноза), а на правом графике показан доверительный интервал и (искусственные) измеренные точки при X = 1,5, X = 2 и X = 3.

Детали основных данных:

  • набор данных состоит из трех точек данных (1,5; 1), (2; 2,5) и (3; 2,5).

  • каждая точка была «измерена» 10 раз, и каждое измеренное значение принадлежит Y±0,5 . MLR с полиномиальной моделью было выполнено по 30 полученным точкам.

  • доверительный интервал был вычислен с формулами и у(х0)-тα/2,де(етгог)

    UпВзнак равноВaр[Y^(Икс0)]σ^2знак равноИкс0'(Икс'Икс)-1Икс0
    leцу| х0у(х0)+Tα/2,де(етгог)
    Y^(Икс0)-Tα/2,dе(еррор)σ^2Икс0'(Икс'Икс)-1Икс0
    (обе формулы взяты из Майерса, Монтгомери, Андерсона-Кука, «Методология поверхности отклика», четвертое издание, стр. 407 и 34)
    μY|Икс0Y^(Икс0)+Tα/2,dе(еррор)σ^2Икс0'(Икс'Икс)-1Икс0,

и σ 2 = М С Е = С С Е / ( п - р ) ~ 0,075 .Tα/2,dе(еррор)знак равно2σ^2знак равноMSЕзнак равноSSЕ/(N-п)~0,075

Меня не особо интересуют абсолютные значения доверительного интервала, а скорее форма UPV, которая зависит только от .Икс0'(Икс'Икс)-1Икс0

Рисунок 1: введите описание изображения здесь

  • очень высокая прогнозируемая дисперсия вне расчетного пространства - это нормально, потому что мы экстраполируем

  • но почему разница между X = 1,5 и X = 2 меньше, чем в измеренных точках?

  • и почему дисперсия становится шире для значений выше X = 2, но затем уменьшается после X = 2.3 и снова становится меньше, чем в измеренной точке при X = 3?

Разве не было бы логично, чтобы дисперсия была маленькой в ​​измеренных точках и большой между ними?

Изменить: та же процедура, но с точками данных [(1,5; 1), (2,25; 2,5), (3; 2,5)] и [(1,5; 1), (2; 2,5), (2,5; 2,2), (3; 2.5)].

Фигура 2: введите описание изображения здесь

Рисунок 3: введите описание изображения здесь

Интересно отметить, что на фиг.1 и 2, У по точкам точно равны 1. Это означает , что доверительный интервал будет точно равняться у ± т α / 2 , д е ( е г г ö г ) . С увеличением количества точек (рисунок 3) мы можем получить значения UPV для измеренных точек, которые меньше 1.Y^±Tα/2,dе(еррор)MSЕ

Джон Токка Такос
источник
2
Можете ли вы отредактировать свой пост, включив в него данные, с которыми вы работаете?
Стефан Коласса
@StephanKolassa Я пытался объяснить, какие данные я использовал. Тем не менее вопрос более общий и не привязан к конкретному примеру.
Джон Токка Такос
Если вы предоставите данные, вам будет легче проиллюстрировать ответ.
Стефан Коласса

Ответы:

6

(Икс,Y)(Икс,Икс2,Y)

Мы платим за то, что нужно смотреть на трехмерные объекты, что трудно сделать на статическом экране. (Я считаю, что бесконечно вращающиеся изображения раздражают и поэтому не причинят вам вреда, даже если они могут быть полезны.) Таким образом, этот ответ может не понравиться всем. Но те, кто хочет добавить третье измерение своим воображением, будут вознаграждены. Я предлагаю вам помочь в этом начинании с помощью тщательно подобранной графики.


Давайте начнем с визуализации независимых переменных. В модели квадратичной регрессии

(1)Yязнак равноβ0+β1(Икся)+β2(Икся2)+ошибка,

(Икся)(Икся2)(Икся,Икся2)ИксИкс2,(T,T2):

Рисунок 1

(Икс,Икс2)

фигура 2

Квадратичная регрессия соответствует плоскости этих точек.

(β0,β1,β2),(Икс,Икс2,Y)(1)-β1(Икс)-β2(Икс2)+(1)Y-β0,(-β1,-β2,1),β1знак равно-55/8β2знак равно15/2,1,(Икс,Икс2) самолет.)

Вот плоскость наименьших квадратов, приспособленная к этим точкам:

введите описание изображения здесь

Yзнак равное(Икс,Икс2),(T,T2)

T(T,T2,е(T,T2))

ИксYИкс2

Рисунок 4

(Икс,Y^)Y^Икс,

Полоса доверия для этой подгоночной кривой показывает, что может случиться с подгонкой, когда точки данных изменяются случайным образом. Не меняя точку зрения, я нанес на график пять подогнанных плоскостей (и их поднятые кривые) на пять независимых новых наборов данных (из которых показана только одна):

Рисунок 5

Икс1,75Икс3.

Давайте посмотрим на то же самое, завис над трехмерным графиком и немного посмотрев вниз и вдоль диагональной оси плоскости. Чтобы помочь вам увидеть, как меняются плоскости, я также сжал вертикальное измерение.

Рисунок 6

(T,T2)(Икс,Икс2),

(Икся,Икся2)L(Икс,Икс2)(Икс,Икс2)(Икс,Икс2)L,

Рисунок 7

LT(T,T2)LИкс1,72,9

(Икс,Y)


Этот анализ концептуально применим к полиномиальной регрессии высокой степени, а также к множественной регрессии в целом. Хотя мы не можем по-настоящему «увидеть» более трех измерений, математика линейной регрессии гарантирует, что интуиция, полученная из двух- и трехмерных графиков показанного здесь типа, остается точной в более высоких измерениях.

Whuber
источник
Спасибо за этот отличный ответ! Мне никогда не приходило в голову, что квадратичная регрессия соответствует плоскости точкам. Эти геометрические формулировки действительно интуитивно понятны и мне очень помогли.
Джон Токка Такос
1
Это такой отличный ответ - мы должны собрать ваши лучшие посты и превратить их в книгу с открытым исходным кодом
Ксавье Бурре Сикотт
1
@Xavier Спасибо за добрые слова. Я думал о чем-то подобном и приветствую все конструктивные предложения и критику.
whuber
1

интуитивный

В очень интуитивном и грубом смысле вы можете увидеть полиномиальную кривую в виде двух линейных кривых, сшитых вместе (одна растущая, другая убывает). Для этих линейных кривых вы можете вспомнить узкую форму в центре .

Точки слева от вершины имеют относительно небольшое влияние на прогнозы справа от вершины, и наоборот.

  • Таким образом, вы можете ожидать две узкие области по обе стороны от пика (где изменения на склонах обеих сторон имеют относительно небольшой эффект).

  • Область вокруг пика является относительно более неопределенной, поскольку изменение наклона кривой оказывает большее влияние в этой области. Вы можете нарисовать много кривых с большим смещением пика, который все еще проходит через точки измерения

иллюстрация

Ниже приведена иллюстрация с некоторыми другими данными, которая показывает, как легко может возникнуть эта модель (можно сказать, двойной узел):

показ интервалов предсказания с двойным узлом

set.seed(1)
x <- c(rep(c(-6, -5, 6, 5), 5))
y <- 0.2*x^2 + rnorm(20, 0, 1)
plot(x, y, 
     ylim=c(-10,30), xlim=c(-10,10),
     pch=21, col=1, bg=1, cex=0.3)

data    = list(y=y,           x=x,                x2=x^2)
newdata = list(y=rep(0,3001), x=seq(-15,15,0.01), x2=seq(-15,15,0.01)^2  )

model <- lm(y~1+x+x2, data=data)
predictions = predict(model, newdata = newdata, interval="predict")
lines(newdata$x, predictions[,1])
lines(newdata$x, predictions[,2], lty=2)
lines(newdata$x, predictions[,3], lty=2)

формальный

Продолжение следует: Я размещу раздел позже как более формальное объяснение. Нужно уметь выразить влияние конкретной точки измерения на доверительный интервал в разных местахИкс, В этом выражении следует более четко (явно) видеть, как изменение определенной (случайной) точки измерения оказывает большее влияние на погрешность в интерполированной области, более удаленной от точек измерения

настоящее время я не могу понять хорошее изображение волнистой структуры интервалов прогнозирования, но я надеюсь, что эта грубая идея в достаточной степени учитывает комментарий Вубера о непризнании этого паттерна в квадратичных подгонках. Дело не столько в квадратичных подгонках, сколько в интерполяции в целом, в этих случаях точность менее сильна для прогнозов, когда они выражаются далеко от точек, независимо от интерполяции или экстраполяции. (Конечно, эта схема более уменьшается, когда больше точек измерения,Икс, добавлены)

Секст Эмпирик
источник
1
Мне трудно поверить в эту характеристику или любой из ее выводов, потому что я почти уверен, что квадратичная регрессия просто не ведет себя так. Не могли бы вы убедить меня, предоставив им какое-то оправдание?
whuber
1
Я думаю, это зависит от положения очков. В примере точки находятся по обе стороны от пика. Тогда вы можете рассматривать положение пика как своего рода экстраполяцию. Я приведу более экстремальный пример позже. (Мне также интересно, как выполняется регрессия, но я представляю, что ошибка в коэффициентах считается коррелированной, иначе вы действительно не получите эту схему)
Sextus Empiricus
Это зависит от положения точек, но сложным образом. (Алгебра показывает, что обратная ковариационная матрица(Икся,Икся2)данные задействованы.) Но фокусировка на «точках по бокам пика» не обязательно является правильным или даже полезным описанием того, что происходит. Ошибки в коэффициентах почти всегда сильно коррелированы (если вы не гарантировали ортогональностьИкс и Икс2), так что это часть объяснения. Чтобы поддержать эти утверждения, я опубликовал графический анализ данных, подобных тем, которые использовались в вопросе.
Whuber