Предположим, меня интересует модель линейной регрессии для , потому что я хотел бы увидеть, влияет ли взаимодействие между двумя ковариатами на Y.
В заметках профессора (с которыми у меня нет контактов) говорится: При включении терминов взаимодействия вы должны включать их термины второй степени. т.е. должны быть включены в регрессию.
Почему следует включать термины второй степени, когда нас интересуют только взаимодействия?
Ответы:
Это зависит от цели вывода. Если вы хотите сделать вывод о том, существует ли взаимодействие, например, в причинном контексте (или, в более общем случае, если вы хотите интерпретировать коэффициент взаимодействия), эта рекомендация вашего преподавателя имеет смысл, и она исходит из Дело в том, что неправильная спецификация функциональной формы может привести к неправильным выводам о взаимодействии .
Вот простой пример, в котором нет члена взаимодействия междуx1 и x2 в структурном уравнении y , но если вы не включите квадратный член x1 , вы ошибочно заключите, что x1 взаимодействует с x2 когда на самом деле это не так.
Это может быть интерпретировано как просто случай пропущенного смещения переменной, и здесьx21 - пропущенная переменная. Если вы вернетесь назад и включите квадрат в свой регресс, видимое взаимодействие исчезнет.
Разумеется, это рассуждение относится не только к квадратичным терминам, но и к неправильной спецификации функциональной формы в целом. Цель здесь состоит в том, чтобы соответствующим образом смоделировать функцию условного ожидания для оценки взаимодействия. Если вы ограничиваете себя моделированием с линейной регрессией, то вам нужно будет включить эти нелинейные термины вручную. Но альтернативой является использование более гибкого регрессионного моделирования, такого как, например, регрессия гребня ядра .
источник
rm(list=ls())
в код, размещенный здесь! Если люди просто скопируют и вставят и запустят код, они могут получить сюрприз ... Я удалил его сейчас.Первая модель может быть переформулирована так:
Вторая модель может быть выражена так:
Обратите внимание, что я упростил обозначения, которые вы использовали для согласованности, а также сделал явный термин ошибки в обеих моделях.
источник