Представить
- Вы запускаете линейную регрессию с четырьмя числовыми предикторами (IV1, ..., IV4)
- Когда в качестве предиктора включен только IV1, стандартизированная бета
+.20
- Когда вы также включаете IV2-IV4, знак стандартизированного коэффициента регрессии IV1 меняется на
-.25
(т.е. он становится отрицательным).
Это вызывает несколько вопросов:
- Что касается терминологии, вы называете это «эффект подавления»?
- Какие стратегии вы бы использовали, чтобы объяснить и понять этот эффект?
- Есть ли у вас примеры таких эффектов на практике, и как вы объяснили и поняли эти эффекты?
regression
predictor
Джером англим
источник
источник
Ответы:
Как уже упоминал ДжоФрульд, мультиколлинеарность является обычным подозрением. По сути, если ваши переменные имеют положительную корреляцию, то коэффициенты будут иметь отрицательную корреляцию, что может привести к неправильному знаку на одном из коэффициентов.
Одной из проверок будет выполнение регрессии главных компонентов или регрессии гребня. Это уменьшает размерность пространства регрессии, обрабатывая мультиколлинеарность. В итоге вы получите необъективные оценки, но, возможно, более низкий MSE и исправленные признаки Идете ли вы с этими конкретными результатами или нет, это хорошая диагностическая проверка. Если вы все еще получаете изменения знака, это может быть теоретически интересно.
ОБНОВИТЬ
Исходя из комментария в ответе Джона Кристи, это может быть интересно. Обращение в ассоциации (величина или направление) являются примерами парадокса Симпсона, парадокса лорда и эффектов подавления. Различия в основном связаны с типом переменной. Более полезно понимать основное явление, а не думать с точки зрения определенного «парадокса» или эффекта. Для причинно-следственной связи статья ниже хорошо объясняет, почему, и я приведу подробное описание их введения и заключения, чтобы подогреть аппетит.
источник
Я считаю, что подобные эффекты часто вызваны коллинеарностью (см. Этот вопрос ). Я думаю, что книга о многоуровневом моделировании Гельмана и Хилла говорит об этом. Проблема заключается в том, что
IV1
это связано с одним или несколькими другими предикторами, и когда все они включены в модель, их оценка становится ошибочной.Если изменение коэффициента происходит из-за коллинеарности, то не очень интересно сообщать об этом, потому что это не из-за связи между вашими предикторами и результатом, а из-за связи между предикторами.
То, что я видел, предложило решить эту проблему, это остаточное решение. Сначала вы подбираете модель для
IV2 ~ IV1
, а затем принимаете остатки этой модели какrIV2
. Если все ваши переменные коррелированы, вы должны действительно изменить их все. Вы можете выбрать сделать так, как этоТеперь установите окончательную модель с
Теперь коэффициент для
rIV2
представляет собой независимый эффектIV2
данной корреляции сIV1
. Я слышал, что вы не получите тот же результат, если вы переоценили в другом порядке, и что выбор порядка перерасчета - это действительно суждение в рамках вашего исследования.источник
O
, и ваши предикторы естьIncome
иFather's Income
. Факт, которыйIncome
связан с этим,Father's Income
по сути интересен, но этот факт будет верным независимо от значенияO
. То есть, вы можете установить, чтоO
все предикторы коллинеарны, даже не собирая данные о ваших результатах или даже не зная, каков будет результат! Эти факты не должны становиться особенно интересными, если вы знаете, чтоO
это действительно такEducation
.Смотрите парадокс Симпсона . Короче говоря, основной наблюдаемый эффект может измениться, когда взаимодействие добавляется в модель. На связанной странице большинство примеров являются категориальными, но в верхней части страницы есть цифра, которую можно представить постоянно. Например, если у вас есть категориальный и непрерывный предиктор, тогда непрерывный предиктор может легко перевернуть знак, если добавить категориальный и в каждой категории знак отличается от общего показателя.
источник