Отказ от ответственности: это для домашнего проекта.
Я пытаюсь найти лучшую модель для цен на алмазы, в зависимости от нескольких переменных, и у меня пока что есть довольно хорошая модель. Однако я столкнулся с двумя переменными, которые явно коллинеарны:
>with(diamonds, cor(data.frame(Table, Depth, Carat.Weight)))
Table Depth Carat.Weight
Table 1.00000000 -0.41035485 0.05237998
Depth -0.41035485 1.00000000 0.01779489
Carat.Weight 0.05237998 0.01779489 1.00000000
Таблица и глубина зависят друг от друга, но я все еще хочу включить их в мою прогнозную модель. Я провел некоторое исследование алмазов и обнаружил, что Таблица и Глубина - это длина поперек вершины и расстояние от верха до низа алмаза. Поскольку эти цены на бриллианты, похоже, связаны с красотой, а красота, кажется, соотносится с пропорциями, я собирался включить их соотношение, скажем, , чтобы предсказать цены. Это стандартная процедура для работы с коллинеарными переменными? Если нет, то что?
Изменить: Вот график Глубина ~ Таблица:
Ответы:
Эти переменные взаимосвязаны.
Степень линейной ассоциации, подразумеваемая этой корреляционной матрицей, недостаточно высока, чтобы переменные считались коллинеарными.
В этом случае я был бы весьма рад использовать все три из этих переменных для типичных регрессионных приложений.
Одним из способов обнаружения мультиколлинеарности является проверка декомпозиции корреляционной матрицы Холецки - если есть мультиколлинеарность, будут некоторые диагональные элементы, близкие к нулю. Вот она на вашей собственной корреляционной матрице:
(Диагональ всегда должна быть положительной, хотя некоторые реализации могут быть слегка отрицательными с эффектом накопленных ошибок усечения)
Как видите, наименьшая диагональ равна 0,91, что еще далеко от нуля.
В отличие от этого вот некоторые почти коллинеарные данные:
источник
Мысль, что эта схема огранки алмазов может добавить понимание Вопроса. Невозможно добавить изображение в комментарий, поэтому сделало его ответом ....
PS. Комментарий @PeterEllis: Тот факт, что «алмазы, которые длиннее по верху, короче сверху вниз», может иметь смысл таким образом: Предположим, что все необработанные алмазы примерно прямоугольные (скажем). Теперь резец должен выбрать свой разрез с этим ограничивающим прямоугольником. Это вводит компромисс. Если ширина и длина увеличиваются, вы идете за бриллиантами большего размера. Возможно, но реже и дороже. Есть смысл?
источник
Следует избегать использования коэффициентов в линейной регрессии. По сути, вы говорите, что если бы линейная регрессия была выполнена для этих двух переменных, они были бы линейно коррелированы без перехвата; это явно не тот случай. Смотрите: http://cscu.cornell.edu/news/statnews/stnews03.pdf
Кроме того, они измеряют скрытую переменную - размер (объем или площадь) алмаза. Рассматривали ли вы преобразование ваших данных в меру площади поверхности / объема вместо включения обеих переменных?
Вы должны опубликовать остаточный график этой глубины и данные таблицы. Ваша корреляция между ними может быть недействительной в любом случае.
источник
Из корреляции трудно сделать вывод, действительно ли таблица и ширина коррелируют. Коэффициент, близкий к + 1 / -1, сказал бы, что они коллинеарны. Это также зависит от размера выборки. Если у вас есть больше данных, используйте их для подтверждения.
Стандартная процедура при работе с коллинеарными переменными состоит в том, чтобы исключить одну из них ... зная, что одна будет определять другую.
источник
Что заставляет вас думать, что таблица и глубина вызывают коллинеарность в вашей модели? По одной только матрице корреляции трудно сказать, что эти две переменные вызовут проблемы коллинеарности. Что совместный F-тест говорит вам о вкладе обеих переменных в вашу модель? Как упомянул curious_cat, Пирсон не может быть лучшей мерой корреляции, когда отношения не являются линейными (возможно, оценка на основе ранга?). VIF и толерантность могут помочь количественно определить степень коллинеарности, которую вы можете иметь.
Я думаю, что ваш подход использования их отношения является подходящим (хотя не как решение коллинеарности). Когда я увидел фигуру, я сразу же подумал об общем измерении в исследованиях в области здравоохранения, каково соотношение талии и бедер. Хотя в данном случае это больше похоже на ИМТ (вес / рост ^ 2). Если соотношение легко интерпретируемое и интуитивно понятное в вашей аудитории, я не вижу причин не использовать его. Тем не менее, вы можете использовать обе переменные в вашей модели, если нет явных доказательств коллинеарности.
источник