В линейных моделях нам нужно проверить, существует ли связь между объясняющими переменными. Если они слишком сильно коррелируют, то возникает коллинеарность (то есть переменные частично объясняют друг друга). В настоящее время я просто смотрю на попарную корреляцию между каждой из объясняющих переменных.
Вопрос 1: Что классифицирует как слишком большую корреляцию? Например, является ли корреляция Пирсона 0,5 слишком большой?
Вопрос 2: Можем ли мы полностью определить, существует ли коллинеарность между двумя переменными на основе коэффициента корреляции или это зависит от других факторов?
Вопрос 3: графическая проверка диаграммы рассеяния двух переменных добавляет что-либо к тому, что указывает коэффициент корреляции?
Ответы:
Всегда полезно смотреть на ваши данные, а не просто на числовые сводки / результаты тестов. Каноническая ссылка здесь - квартет Анскомба .
источник
Мой взгляд на три вопроса
Многие авторы утверждают, что (мульти) коллинеарность не является проблемой. Взгляните здесь и здесь, чтобы получить довольно кислотное мнение по этому вопросу. Суть в том, что мультиколлинеарность не оказывает влияния на проверку гипотезы, кроме наличия более низкого (эффективного) размера выборки. Вам будет трудно интерпретировать коэффициенты регрессии, если вы, например, делаете регрессию, но вы не нарушаете никаких базовых допущений, если решите это сделать.
Я думаю, что есть несколько способов измерения корреляции между двумя переменными, от вычисления коэффициента корреляции Пирсона (если вы предполагаете линейность, и, очевидно, вы это сделали), до ранга Спирмена , корреляции расстояний и даже выполнения PCA для вашего набора данных. Но я бы оставил ответ на этот вопрос лучше информированным людям, чем мне.
ИМО, ответ звучит нет.
источник
Распространенным способом оценки коллинеарности является использование дисперсионных факторов инфляции (VIF). Это может быть достигнуто в R с помощью функции 'vif' в пакете 'car'. Это имеет преимущество перед просмотром только корреляции между двумя переменными, поскольку одновременно оценивает корреляцию между одной переменной и остальными переменными в модели. Затем он дает вам один балл для каждого предиктора в модели.
Как указывалось выше, нет жесткого и быстрого сокращения, но оценки VIF часто считаются проблемными, когда они находятся между 5-10. Я использую полевые правила для этого. Кроме того, нет ничего недопустимого в использовании коррелированных предикторов (если они не полностью коррелированы). Вам просто нужно больше данных для разделения эффектов. Если у вас недостаточно данных, в оценках параметров связанных предикторов будут большие неопределенности, и эти оценки будут чувствительны к повторной выборке.
Чтобы ответить на ваши вопросы конкретно:
Не используйте коэффициенты корреляции. использовать VIF модели со всеми предикторами и без взаимодействий. VIF 5-10 указывают на слишком большую корреляцию, ваша конкретная отсечка зависит от того, что вам нужно сделать с моделью.
Это зависит от других предикторов в модели, поэтому выгодно использовать VIF.
Нет! Статистика лучше подсчитает, что вы видите на графике рассеяния. Если только не существует супер нарушения допущений OLS при регрессии ваших предикторов друг против друга.
источник