Либо квадратичный, либо член взаимодействия важен в изоляции, но ни один из них не вместе

15

В рамках задания мне нужно было дополнить модель двумя переменными предикторами. Затем мне пришлось нарисовать график остатков моделей по отношению к одному из включенных предикторов и внести изменения на основе этого. График показал криволинейную тенденцию, и поэтому я включил квадратный термин для этого предиктора. Новая модель показала значимость квадратичного члена. Пока все хорошо.

Тем не менее, данные свидетельствуют о том, что взаимодействие также имеет смысл. Добавление термина взаимодействия в исходную модель также «фиксирует» криволинейный тренд и также имеет значение при добавлении в модель (без квадратичного члена). Проблема заключается в том, что когда к модели добавляются как квадратичный, так и член взаимодействия, один из них не имеет значения.

Какой термин (квадратичное или взаимодействие) я должен включить в модель и почему?

Тал Башан
источник

Ответы:

21

синопсис

Когда предикторы коррелируют, квадратичный член и член взаимодействия будут нести подобную информацию. Это может привести к значимости квадратичной модели или модели взаимодействия; но когда оба термина включены, потому что они так похожи, ни один из них не может быть существенным. Стандартная диагностика мультиколлинеарности, такая как VIF, может не обнаружить ничего из этого. Даже диагностический график, специально разработанный для обнаружения эффекта использования квадратичной модели вместо взаимодействия, может не определить, какая модель лучше.


Анализ

Суть этого анализа и его основная сила заключается в характеристике ситуаций, подобных описанным в вопросе. Имея такую ​​характеристику, можно легко смоделировать данные, которые ведут себя соответствующим образом.

Рассмотрим два предиктора и X 2 (которые мы будем автоматически стандартизировать, чтобы у каждого была единичная дисперсия в наборе данных), и предположим, что случайный ответ Y определяется этими предикторами и их взаимодействием плюс независимая случайная ошибка:Икс1Икс2Y

Yзнак равноβ1Икс1+β2Икс2+β1,2Икс1Икс2+ε,

Во многих случаях предикторы коррелируют. Набор данных может выглядеть следующим образом:

Матрица рассеяния

Эти данные выборки были получены с и β 1 , 2 = 0,1 . Корреляция между X 1 и X 2 составляет 0,85 .β1знак равноβ2знак равно1β1,2знак равно0,1Икс1Икс20,85

Это не обязательно означает, что мы думаем о и X 2 как о реализации случайных величин: это может включать в себя ситуацию, когда X 1 и X 2 являются настройками в спроектированном эксперименте, но по какой-то причине эти настройки не являются ортогональными.Икс1Икс2Икс1Икс2

Независимо от того, как возникает корреляция, один хороший способ описать это с точки зрения того, насколько предикторы отличаются от их среднего значения, . Эти различия будут довольно небольшими (в том смысле, что их дисперсия меньше 1 ); чем больше корреляция между X 1 и X 2 , тем меньше будут эти различия. Тогда X 1 = X 0 + δ 1 и X 2 = X 0 + δИкс0знак равно(Икс1+Икс2)/21Икс1Икс2Икс1знак равноИкс0+δ1 , мы можем повторно выразить (скажем) X 2 через X 1 как X 2 = X 1 + ( δ 2 - δ 1 ) . Подставляя это только втерминвзаимодействия, модельИкс2знак равноИкс0+δ2Икс2Икс1Икс2знак равноИкс1+(δ2-δ1)

Y=β1X1+β2X2+β1,2X1(X1+[δ2δ1])+ε=(β1+β1,2[δ2-δ1])Икс1+β2Икс2+β1,2Икс12+ε

При условии, что значения меняются незначительно по сравнению с β 1 , мы можем собрать это изменение с истинными случайными членами, записавβ1,2[δ2-δ1]β1

Yзнак равноβ1Икс1+β2Икс2+β1,2Икс12+(ε+β1,2[δ2-δ1]Икс1)

Таким образом, если мы регрессируем против X 1 , X 2 и X 2 1 , мы допустим ошибку: изменение остатков будет зависеть от X 1 (то есть оно будет гетероскедастичным ). Это можно увидеть с помощью простого вычисления дисперсии:YИкс1,Икс2Икс12Икс1

вар(ε+β1,2[δ2-δ1]Икс1)знак равновар(ε)+[β1,22вар(δ2-δ1)]Икс12,

Однако, если типичное изменение существенно превышает типичное изменение β 1 , 2 [ δ 2 - δ 1 ] X 1 , эта гетероскедастичность будет настолько низкой, что ее невозможно обнаружить (и она должна привести к точной модели). (Как показано ниже, один из способов поиска этого нарушения регрессионных допущений состоит в том, чтобы построить абсолютное значение остатков по отношению к абсолютному значению X 1 - вспоминая сначала, чтобы стандартизировать X 1, если это необходимо.) Это характеристика, которую мы искали ,εβ1,2[δ2-δ1]Икс1Икс1Икс1

Помня, что и X 2 предполагалось стандартизировать к единичной дисперсии, это означает, что дисперсия δ 2 - δ 1 будет относительно небольшой. Таким образом, для воспроизведения наблюдаемого поведения достаточно выбрать небольшое абсолютное значение для β 1 , 2 , но сделать его достаточно большим (или использовать достаточно большой набор данных), чтобы оно было значительным.Икс1Икс2δ2-δ1β1,2

Короче говоря, когда предикторы коррелируют, а взаимодействие мало, но не слишком мало, квадратичный член (только в одном из предикторов) и член взаимодействия будут индивидуально значимыми, но смешанными друг с другом. Только статистические методы вряд ли помогут нам решить, что лучше использовать.


пример

Давайте проверим это на примере данных, подобрав несколько моделей. Напомним, что был установлен на 0,1 при моделировании этих данных. Хотя это мало (квадратичное поведение даже не видно на предыдущих диаграммах рассеяния), при 150 точках данных у нас есть шанс обнаружить его.β1,20,1150

Во-первых, квадратичная модель :

            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.03363    0.03046   1.104  0.27130    
x1           0.92188    0.04081  22.592  < 2e-16 ***
x2           1.05208    0.04085  25.756  < 2e-16 ***
I(x1^2)      0.06776    0.02157   3.141  0.00204 ** 

Residual standard error: 0.2651 on 146 degrees of freedom
Multiple R-squared: 0.9812, Adjusted R-squared: 0.9808 

0,068β1,2знак равно0,1

      x1       x2  I(x1^2) 
3.531167 3.538512 1.009199 

5

Далее модель с взаимодействием, но без квадратичного члена:

            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.02887    0.02975    0.97 0.333420    
x1           0.93157    0.04036   23.08  < 2e-16 ***
x2           1.04580    0.04039   25.89  < 2e-16 ***
x1:x2        0.08581    0.02451    3.50 0.000617 ***

Residual standard error: 0.2631 on 146 degrees of freedom
Multiple R-squared: 0.9815, Adjusted R-squared: 0.9811

      x1       x2    x1:x2 
3.506569 3.512599 1.004566 

Все результаты аналогичны предыдущим. Оба одинаково хороши (с очень небольшим преимуществом для модели взаимодействия).

Наконец, давайте включим как взаимодействие, так и квадратичные термины :

            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.02572    0.03074   0.837    0.404    
x1           0.92911    0.04088  22.729   <2e-16 ***
x2           1.04771    0.04075  25.710   <2e-16 ***
I(x1^2)      0.01677    0.03926   0.427    0.670    
x1:x2        0.06973    0.04495   1.551    0.123    

Residual standard error: 0.2638 on 145 degrees of freedom
Multiple R-squared: 0.9815, Adjusted R-squared: 0.981 

      x1       x2  I(x1^2)    x1:x2 
3.577700 3.555465 3.374533 3.359040

Икс1Икс2Икс12Икс1Икс2

Если бы мы попытались обнаружить гетероскедастичность в квадратичной модели (первая), мы были бы разочарованы:

Диагностический сюжет

|Икс1|

Whuber
источник
9

Что имеет смысл в зависимости от источника данных?

Мы не можем ответить на этот вопрос для вас, компьютер не может ответить на этот вопрос для вас. Причина, по которой мы все еще нуждаемся в статистиках, а не просто в статистических программах, связана с такими вопросами. Статистика - это больше, чем просто подсчет чисел, речь идет о понимании вопроса и источника данных и способности принимать решения на основе научных данных, справочной информации и другой информации за пределами данных, на которые смотрит компьютер. Ваш учитель, вероятно, надеется, что вы будете рассматривать это как часть задания. Если бы я поставил такую ​​задачу (как и раньше), меня бы больше интересовало обоснование вашего ответа, чем вы на самом деле выбрали.

Вероятно, это выходит за рамки вашего текущего класса, но одним из подходов, если нет четкой научной причины для предпочтения одной модели перед другой, является усреднение модели, вы подходите обеим моделям (и, возможно, нескольким другим моделям), а затем усредняете вместе прогнозы (часто взвешивается по качеству подгонки разных моделей).

Другой вариант, когда это возможно, состоит в том, чтобы собрать больше данных и, если возможно, выбрать значения x, чтобы стало более понятно, каковы нелинейные эффекты и эффекты взаимодействия.

Существуют некоторые инструменты для сравнения соответствия не вложенных моделей (AIC, BIC и т. Д.), Но в этом случае они, вероятно, не будут иметь достаточных различий, чтобы отвергнуть понимание того, откуда поступают данные и что имеет смысл.

Грег Сноу
источник
1

Еще одна возможность, в дополнение к @ Greg's, состоит в том, чтобы включить оба термина, хотя один из них не имеет значения. Включение только статистически значимых терминов не является законом вселенной.

Питер Флом - Восстановить Монику
источник
Спасибо, Питер и @ Грег. Я предполагаю, что на этом этапе обучения я ищу абсолютные ответы на вопросы, которые требуют хотя бы качественных рассуждений. Поскольку добавление либо квадратичного термина, либо термина взаимодействия «фиксировало» график зависимости остатков от предиктора, я не был уверен, какой из них следует включить. Что меня удивило, так это то, что включение квадратичного члена сделало член взаимодействия несущественным. Я бы подумал, что если есть взаимодействие, оно будет значительным независимо от того, был ли включен квадратичный термин или нет.
Тал Башан
1
Привет, @TalBashan. Известный статистик Дональд Кокс однажды сказал, что «нет никаких обычных статистических вопросов, только сомнительные статистические процедуры»
Питер Флом - Восстановить Монику
@PeterFlom Может быть, вы имеете в виду, сэр Дэвид Кокс?
Майкл Р. Черник
По электронной почте Ой. Да, Дэвид, а не Дональд. Сожалею.
Питер Флом - Восстановить Монику