В регрессии термин взаимодействия уничтожает оба связанных прямых эффекта. Я прекращаю взаимодействие или сообщаю результат? Взаимодействие не было частью первоначальной гипотезы.
25
В регрессии термин взаимодействия уничтожает оба связанных прямых эффекта. Я прекращаю взаимодействие или сообщаю результат? Взаимодействие не было частью первоначальной гипотезы.
Ответы:
Я думаю, что это сложно; как вы намекаете, здесь есть «моральный риск»: если бы вы вообще не смотрели на взаимодействие, вы были бы свободны и ясны, но теперь, когда у вас есть, есть подозрение в том, что вы утащили данные, если вы их отбросите.
Ключ, вероятно, заключается в изменении значения ваших эффектов, когда вы переходите от модели «только основные эффекты» к модели взаимодействия. То, что вы получаете за «основные эффекты», во многом зависит от того, как закодированы ваши методы лечения и контрасты. В R по умолчанию лечение контрастирует с первыми факторными уровнями (теми, которые имеют первые имена в алфавитном порядке, если вы не старались их кодировать по-другому) в качестве базовых уровней.
Скажите (для простоты), что у вас есть два уровня, «control» и «trt», для каждого фактора. Без взаимодействия значение параметра «v1.trt» (при условии, что лечение отличается от значения по умолчанию в R) - это «средняя разница между группами« v1.control »и« v1.trt »»; значение параметра «v2.trt» означает «средняя разница между« v2.control »и« v2.trt »».
При взаимодействии «v1.trt» - это средняя разница между «v1.control» и «v1.trt» в группе «v2.control» , а «v2.trt» - это средняя разница между группами v2 в Группа v1.control. Таким образом, если у вас есть довольно небольшие эффекты лечения в каждой из контрольных групп, но большой эффект в группах лечения, вы можете легко увидеть то, что видите.
Единственный способ, которым я могу видеть, что это происходит без значительного члена взаимодействия, - это если все эффекты довольно слабы (так что вы на самом деле подразумеваете «эффект исчез»), что вы перешли от p = 0,06 к p = 0,04, через линию магического значения).
Другая возможность состоит в том, что вы «используете слишком много степеней свободы», то есть оценки параметров на самом деле не сильно меняются, но член остаточной ошибки достаточно раздувается необходимостью оценки еще 4 [= (2- 1) * (5-1)] параметры, которые значимые для вас термины становятся несущественными. Опять же, я бы ожидал этого только при небольшом наборе данных / относительно слабых эффектах.
Одно из возможных решений - перейти к суммированию контрастов, хотя это также деликатно - вы должны быть уверены, что «средний эффект» имеет смысл в вашем случае. Самое лучшее - это построить ваши данные, посмотреть на коэффициенты и понять, что происходит с точки зрения предполагаемых параметров.
Надеюсь, это поможет.
источник
Вы уверены, что переменные были правильно выражены? Рассмотрим две независимые переменные и X 2 . Формулировка проблемы утверждает, что вы получаете хорошую форму в формеИкс1 Икс2
Это можно переписать
то есть, если вы повторно выражаете свои переменные в форме
тогда модель является линейной и, вероятно, имеет гомоскедастические невязки:
Этот анализ показывает, как возможно - даже вероятно в некоторых приложениях - иметь модель, в которой единственным эффектом являются взаимодействия. Это происходит, когда переменные (независимые, зависимые или оба) представлены вам в неподходящей форме, и их логарифмы являются более эффективной целью для моделирования. Распределения переменных и начальных невязок дают подсказки, необходимые для определения того, может ли это иметь место: перекосные распределения переменных и гетероскедастичность невязок (в частности, наличие отклонений, приблизительно пропорциональных прогнозируемым значениям), являются показателями.
источник
Обычно это приводит к высокой мультиколлинеарности, поскольку продукт будет сильно коррелировать с обеими исходными переменными. При мультиколлинеарности оценки отдельных параметров сильно зависят от того, какие другие переменные рассматриваются - как в вашем случае. В качестве контрмеры центрирование переменных часто уменьшает мультиколлинеарность, когда рассматривается взаимодействие.
Я не уверен, относится ли это непосредственно к вашему случаю, поскольку у вас, кажется, есть категориальные предикторы, но вместо термина «ANOVA» используется термин «регрессия». Конечно, последний случай по сути та же модель, но только после выбора схемы кодирования контраста, как объяснил Бен.
источник
Это может быть проблемой интерпретации, неправильного понимания того, что в действительности представляет собой так называемый коэффициент «прямого воздействия».
В регрессионных моделях с непрерывными переменными-предикторами и без терминов взаимодействия, т. Е. Без терминов, которые строятся как произведение других терминов, коэффициент каждой переменной представляет собой наклон поверхности регрессии в направлении этой переменной. Он постоянен независимо от значений переменных и, очевидно, является мерой воздействия этой переменной.
В моделях с взаимодействиями, то есть с терминами, которые построены как продукты других терминов, такая интерпретация может быть сделана без дополнительной квалификации только для переменных, которые не участвуют ни в каких взаимодействиях. Коэффициент переменной , которая будет участвует во взаимодействиях является наклон регрессионной поверхности в направлении этой переменной , когда значения всех переменных , которые взаимодействуют с переменной в вопросе равны нулю , и тест значимости коэффициента относится к наклон поверхности регрессии только в этой области пространства предиктора, Поскольку не требуется, чтобы в этой области пространства действительно были данные, кажущийся коэффициент прямого эффекта может иметь небольшое сходство с наклоном регрессионной поверхности в области пространства предиктора, где данные фактически наблюдались. В таких случаях нет истинного «прямого эффекта»; наилучшей заменой, вероятно, является «средний эффект»: наклон поверхности регрессии в направлении рассматриваемой переменной, взятый в каждой точке данных и усредненный по всем точкам данных. Подробнее об этом см. Почему центрирование независимых переменных может изменять основные эффекты с помощью модерации?
источник