Если вы не можете сделать это ортогонально, сделайте это необработанно (полиномиальная регрессия)

11

При выполнении полиномиальной регрессии для на люди иногда используют необработанные полиномы, иногда ортогональные полиномы. Но когда они используют то, что кажется совершенно произвольным.YИкс

Здесь и здесь используются сырые полиномы. Но здесь и здесь ортогональные полиномы, кажется, дают правильные результаты. Что, как, почему ?!

В противоположность этому, когда вы узнаете о полиномиальной регрессии из учебника (например, ISLR ), в нем даже не упоминаются необработанные или ортогональные полиномы - дается только подходящая модель.

Итак, когда мы должны использовать что?
И почему отдельные значения p для , и т. Д. Сильно отличаются между этими двумя значениями?ИксИкс2

l7ll7
источник
1
Вам следует подумать о том, какие p-значения различаются, когда вы подгоняете одну и ту же модель к одним и тем же данным с использованием необработанных и ортогональных полиномов и их интерпретации. Как насчет модельных прогнозов?
Scortchi - Восстановить Монику
@ Scortchi Я добавил соответствующую информацию в свой вопрос.
l7ll7
4
Другой хорошей причиной для использования ортогональных полиномов является численная устойчивость; соответствующая матрица дизайна для подгонки в основе мономов может быть весьма плохо подготовлена ​​для подгонки высокой степени, поскольку мономы более высокого порядка «почти линейно зависимы» (концепция, которая может быть сделана более математически точной), в то время как матрица дизайна для ортогональных многочленов ведут себя немного лучше. Я обсуждал случай равных абсцисс (грамм) здесь , но сделка аналогична в случае неравномерного расстояния.
JM не является статистиком
(Тем не менее, нельзя подходить к многочленам высокой степени без веской причины для этого.)
JM не является статистом

Ответы:

7

Переменные и X 2 не являются линейно независимыми. Таким образом , даже если не существует квадратичный эффект, добавление X 2 модели будет изменять оценочную эффект X .ИксИкс2Икс2Икс

Давайте посмотрим на очень простую симуляцию.

> x <- runif(1e3)
> y <- x + rnorm(length(x))
> summary(lm(y~x))

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.03486    0.06233  -0.559    0.576    
x            1.05843    0.10755   9.841   <2e-16 ***

Теперь с квадратичным членом в модели, чтобы соответствовать.

> summary(lm(y~x+I(x^2)))

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  0.03275    0.09528   0.344    0.731
x            0.65742    0.44068   1.492    0.136
I(x^2)       0.39914    0.42537   0.938    0.348

Конечно, комплексный тест все еще важен, но я думаю, что результат, который мы ищем, не этот. Решение состоит в том, чтобы использовать ортогональные полиномы.

 > summary(lm(y~poly(x,2)))

 Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.49744    0.03098  16.059   <2e-16 ***
poly(x, 2)1  9.63943    0.97954   9.841   <2e-16 ***
poly(x, 2)2  0.91916    0.97954   0.938    0.348    

Обратите внимание, что коэффициенты xв первой модели и poly(x,2)1во второй модели не равны, и даже точки пересечения различны. Это потому, что polyдоставляет ортонормированные векторы, которые также ортогональны к вектору rep(1, length(x)). Так poly(x,2)1нет, xа скорее (x -mean(x))/sqrt(sum((x-mean(x))**2))...

Важным моментом является то, что тесты Вальда в этой последней модели независимы. Вы можете использовать ортогональные полиномы, чтобы решить, до какой степени вы хотите пойти, просто взглянув на тест Вальда: здесь вы решаете оставить а не X 2 . Конечно, вы могли бы найти ту же модель, сравнив первые две подходящие модели, но так проще - если вы решите подняться на более высокие ступени, это действительно намного проще.ИксИкс2

После того, как вы решили, какие термины сохранить, вы можете вернуться к необработанным полиномам и X 2 для интерпретации или прогнозирования.ИксИкс2

Элвис
источник
+1 наконец четкий ответ! Спасибо! Прежде чем я согласился, скажите, пожалуйста, есть ли какие-либо другие статистические данные, такие как R ^ 2 или F-статистика, которые мне лучше читать об итогах ортогонального графика, чем необработанные? Помимо построения переменных, подходит ли использование в этом сценарии необработанных полиномов для чего-то еще?
17
И когда у меня есть несколько предикторов, верно ли то же самое?
17
Как бы вы «использовали ортогональные полиномы, чтобы решить, хотите ли вы включить квадратичный термин или нет»?
Scortchi - Восстановить Монику
1
Дело в том, что критерий эффекта высшего порядка, квадратичного в данном случае, одинаков, независимо от того, используете ли вы необработанные или ортогональные полиномы. Так зачем возиться с ортогональными полиномами?
Scortchi - Восстановить Монику
4
Ну, конечно, вы просто не должны делать эти маргинальные тесты в этой модели; Вы должны повторно соответствовать после отказа от эффекта высшего порядка. Ортогональные многочлены избавят вас от беспокойства, позволяя выполнить простую процедуру понижения - возможно, вы могли бы проиллюстрировать это кубическим термином.
Scortchi - Восстановить Монику
3

Чтобы дать наивную оценку ситуации:

{пN}Nзнак равно1{п~}Nзнак равно1L2([a,б])

L2([a,б])YL2([a,б])θNθ~NрNзнак равно1,2,...L2

ΣNзнак равно1θ~Nп~Nзнак равноYзнак равноΣNзнак равно1θNпN,

К<

{пN}Nзнак равно1К
{п~}Nзнак равно1К,
L2([a,б])

{п~}Nзнак равно1{пN}Nзнак равно1Y{п}Nзнак равно1ККL2([a,б])

п

Следовательно, с точки зрения предсказания нет (в этом случае) никакой разницы.

vaр(θ~^)знак равнояσ²


Естественный вопрос возникает, если существует лучшая усеченная базисная система. Однако ответ на вопрос не является ни простым, ни уникальным и зависит, например, от определения слова «лучший», то есть того, что вы пытаетесь архивировать.

chRrr
источник
1
(+1) Нет разницы с точки зрения прогнозирования; И можно сказать, что нет разницы с точки зрения какого-либо значимого вывода.
Scortchi - Восстановить Монику