Когда мы можем говорить о коллинеарности

16

В линейных моделях нам нужно проверить, существует ли связь между объясняющими переменными. Если они слишком сильно коррелируют, то возникает коллинеарность (то есть переменные частично объясняют друг друга). В настоящее время я просто смотрю на попарную корреляцию между каждой из объясняющих переменных.

Вопрос 1: Что классифицирует как слишком большую корреляцию? Например, является ли корреляция Пирсона 0,5 слишком большой?

Вопрос 2: Можем ли мы полностью определить, существует ли коллинеарность между двумя переменными на основе коэффициента корреляции или это зависит от других факторов?

Вопрос 3: графическая проверка диаграммы рассеяния двух переменных добавляет что-либо к тому, что указывает коэффициент корреляции?

Стефан
источник
2
Коллинеарность (особенность) среди 3+ переменных не сводится только к высоким парным корреляциям. Поищите на сайте вопросы с пометкой «мультиколлинеарность». Также я рекомендую вам прочитать этот мой ответ: stats.stackexchange.com/a/70910/3277 .
ttnphns

Ответы:

15
  1. рзнак равно1,0рзнак равно+0,50р+0,95Каков эффект наличия коррелированных предикторов в модели множественной регрессии?

  2. р+0,95

  3. Всегда полезно смотреть на ваши данные, а не просто на числовые сводки / результаты тестов. Каноническая ссылка здесь - квартет Анскомба .

Gung - Восстановить Монику
источник
3

Мой взгляд на три вопроса

Вопрос 1 Что классифицирует как слишком много корреляции? Например: корреляция Пирсона 0,5 это слишком много?

Многие авторы утверждают, что (мульти) коллинеарность не является проблемой. Взгляните здесь и здесь, чтобы получить довольно кислотное мнение по этому вопросу. Суть в том, что мультиколлинеарность не оказывает влияния на проверку гипотезы, кроме наличия более низкого (эффективного) размера выборки. Вам будет трудно интерпретировать коэффициенты регрессии, если вы, например, делаете регрессию, но вы не нарушаете никаких базовых допущений, если решите это сделать.

Вопрос 2 Можем ли мы полностью определить, существует ли коллинеарность между двумя переменными на основе коэффициента корреляции или это зависит от других факторов?

Я думаю, что есть несколько способов измерения корреляции между двумя переменными, от вычисления коэффициента корреляции Пирсона (если вы предполагаете линейность, и, очевидно, вы это сделали), до ранга Спирмена , корреляции расстояний и даже выполнения PCA для вашего набора данных. Но я бы оставил ответ на этот вопрос лучше информированным людям, чем мне.

Вопрос 3 Добавляет ли графическая проверка графика рассеяния двух переменных что-либо к тому, что указывает коэффициент корреляции?

ИМО, ответ звучит нет.

pedrofigueira
источник
3
ИМХО, ответ на (3), напротив, очень сильный да: в то время как коэффициент корреляции может дать только одну числовую оценку линейности отношения, быстрый взгляд на диаграмму рассеяния предоставит массу дополнительной информации об этом отношения, в том числе поведение, которое не ожидалось заранее. Однако реальный интерес к этому набору вопросов заключается в том, как оценить отношения между тремя или более переменными (несмотря на то, как на самом деле было сформулировано (3)), и в этом случае даже матрица диаграммы рассеяния не раскрывает все, как отмечает @ttnphns.
whuber
1
Что касается (1), я читаю вашу ссылку (на блог Дэйва Джайла) по-другому: он утверждает, что формальное тестирование мультиколлинеарности является ошибочным. Я не вижу, чтобы он утверждал, что мультиколлинеарность не является проблемой.
whuber
Насколько я понимаю, ответ Дейва Джайла состоит в том, что мультиколлинеарность влияет на результаты только через эквивалентный меньший размер выборки. Таким образом, точно так же, как нет смысла проверять выборку малого размера, нет смысла проверять влияние мультиколлинеарности. Но я был бы рад услышать ваше мнение об этом, может быть, я неправильно понял.
педрофигейра
Что ж, необходимость большего размера выборки может оказать огромное влияние на большинство исследований! Более тонкий эффект почти коллинеарности касается построения моделей и выбора переменных, как обсуждалось ( среди прочего ) в таких потоках, как stats.stackexchange.com/questions/50537 и stats.stackexchange.com/a/28476/919 . Но давайте удостоверимся, что мы говорим об одних и тех же вещах: Джайлс обсуждает формальные тесты мультиколлинеарности, как если бы независимые переменные выбирались случайным образом. Здесь проблема, кажется, сосредоточена на использовании диагностики мультиколлинеарности, чтобы понять возможности и ограничения модели.
whuber
1

Распространенным способом оценки коллинеарности является использование дисперсионных факторов инфляции (VIF). Это может быть достигнуто в R с помощью функции 'vif' в пакете 'car'. Это имеет преимущество перед просмотром только корреляции между двумя переменными, поскольку одновременно оценивает корреляцию между одной переменной и остальными переменными в модели. Затем он дает вам один балл для каждого предиктора в модели.

Как указывалось выше, нет жесткого и быстрого сокращения, но оценки VIF часто считаются проблемными, когда они находятся между 5-10. Я использую полевые правила для этого. Кроме того, нет ничего недопустимого в использовании коррелированных предикторов (если они не полностью коррелированы). Вам просто нужно больше данных для разделения эффектов. Если у вас недостаточно данных, в оценках параметров связанных предикторов будут большие неопределенности, и эти оценки будут чувствительны к повторной выборке.

Чтобы ответить на ваши вопросы конкретно:

  1. Не используйте коэффициенты корреляции. использовать VIF модели со всеми предикторами и без взаимодействий. VIF 5-10 указывают на слишком большую корреляцию, ваша конкретная отсечка зависит от того, что вам нужно сделать с моделью.

  2. Это зависит от других предикторов в модели, поэтому выгодно использовать VIF.

  3. Нет! Статистика лучше подсчитает, что вы видите на графике рассеяния. Если только не существует супер нарушения допущений OLS при регрессии ваших предикторов друг против друга.

Colin
источник