Как бороться с высокой корреляцией среди предикторов при множественной регрессии?

18

Я нашел ссылку в статье, которая выглядит так:

Согласно Tabachnick & Fidell (1996), независимые переменные с двумерной корреляцией более 0,70 не должны включаться в множественный регрессионный анализ.

Проблема: я использовал в дизайне множественной регрессии 3 переменные, коррелированные> 0,80, VIF около 0,2-2,3, Допуск ~ 4-5. Я не могу исключить ни одну из них (важные предикторы и результаты). Когда я регрессировал результат по двум предикторам, которые коррелировали на 0,80, они оставались как значимыми, так и по каждой предсказанной важной дисперсии, и эти же две переменные имеют наибольшую часть и коэффициенты полупериодической корреляции среди всех 10 включенных переменных (5 контролей).

Вопрос: Является ли моя модель действительной, несмотря на высокие корреляции? Любые ссылки приветствуются!


Спасибо за ответы!

Я не использовал Табачника и Фиделла в качестве ориентира, я нашел эту ссылку в статье, посвященной высокой коллинеарности среди предикторов.

Так что, по сути, у меня слишком мало наблюдений за количеством предикторов в модели (многие категориальные, фиктивно-кодированные контрольные переменные - возраст, срок пребывания, пол и т. Д.) - 13 переменных для 72 случаев. Индекс условий составляет ~ 29 со всеми элементами управления и ~ 23 без них (5 переменных).

Я не могу отбросить любую переменную или использовать факторный анализ, чтобы объединить их, потому что теоретически они имеют смысл сами по себе. Уже слишком поздно, чтобы получить больше данных. Поскольку я провожу анализ в SPSS, возможно, было бы лучше найти синтаксис для регрессии гребня (хотя я раньше этого не делал, и интерпретация результатов была бы для меня новой).

Если это имеет значение, когда я проводил ступенчатую регрессию, те же 2 высоко коррелированные переменные оставались единственными значимыми предикторами результата.

И я до сих пор не понимаю, имеют ли значение частичные корреляции, которые высоки для каждой из этих переменных, как объяснение того, почему я сохранил их в модели (если регрессия гребня не может быть выполнена).

Не могли бы вы сказать, что «Диагностика регрессии: выявление влиятельных данных и источников коллинеарности / Дэвид А. Белсли, Эдвин Кух и Рой Уэлш, 1980» будет полезна для понимания мультиколлинеарности? Или другие ссылки могут быть полезны?

Ander
источник
2
Подробный пример этой ситуации см. В анализе 10 IVs на stats.stackexchange.com/a/14528 . Здесь все IV сильно коррелированы (около 60%). Но если вы исключите их все, у вас ничего не останется! Часто бывает, что вы не можете удалить любую из этих переменных. Это делает рекомендацию T & F несостоятельной.
whuber
Действительно, в Табачнике и Фиделе есть ряд заявлений, которые я бы посчитал по крайней мере несколько сомнительными ... просто потому, что что-то напечатано в книге, не означает, что это всегда имеет смысл.
Glen_b

Ответы:

20

Ключевой проблемой является не корреляция, а коллинеарность (см., Например, работы Белсли). Это лучше всего испытания с использованием условий индексов (доступно в R, SASи , возможно , и другие программы. Корреляция не является ни необходимым , ни достаточным условием коллинеарности. Индексов Condition более 10 (на Belsley) указывают на умеренный коллинеарности, более 30 тяжелых, но это также зависит на какие переменные участвуют в коллинеарности.

Если вы обнаружите высокую коллинеарность, это означает, что ваши оценки параметров нестабильны. То есть небольшие изменения (иногда в 4-й значащей цифре) в ваших данных могут вызвать большие изменения в ваших оценках параметров (иногда даже поменять их знак). Это плохо.

Способы устранения: 1) Получение большего количества данных 2) Удаление одной переменной 3) Объединение переменных (например, с частичными наименьшими квадратами) и 4) Выполнение регрессии гребня, которая дает смещенные результаты, но уменьшает дисперсию оценок.

Питер Флом - Восстановить Монику
источник
Табачник и Фиделл написали хорошую многомерную книгу по общественным наукам. Они не являются статистиками, но их знание многомерности очень хорошее. Но я думаю, что они могут создать практические правила для упрощения и могут пропустить статистические тонкости. Поэтому я бы больше полагался на то, что говорит Питер в своих ответах, чем на их статью.
Майкл Р. Черник
Спасибо @MichaelChernick. Я действительно написал свою диссертацию по диагностике коллинеарности для множественной регрессии.
Питер Флом - Восстановить Монику
Я предполагаю, что вам столько же лет, сколько и мне, и поэтому ваша работа пришла после работы Белсли, Куха, Уэлша и Кука. Я знаю, что работа Кука была в основном связана с другими диагностическими проблемами (левередж и ненормальность), но делал ли он что-нибудь с мультиколлинеарностью? Конечно, концепция регрессии гребня восходит еще до моего времени
Майкл Р. Черник,
1
@ Питер Флом: Почему корреляция не является ни необходимым, ни достаточным условием для коллинеарности? Вы имеете в виду нелинейную корреляцию?
Джулиан
5
В этом нет необходимости, поскольку при большом количестве переменных все пары могут быть лишь слегка коррелированы, но их сумма идеально коллинеарна. Этого недостаточно, потому что есть случаи, когда довольно высокая корреляция не приводит к проблематичной коллинеарности по показателям состояния
Питер Флом - Восстановить Монику