Работа с коррелированными регрессорами

23

Какова лучшая стратегия в множественной линейной регрессии с высококоррелированными регрессорами? Это законный подход, чтобы добавить произведение всех коррелированных регрессоров?

Ηλίας
источник
1
Мне жаль, что ответ @ Suncoolsu был удален. Это и последующие комментарии прояснили разницу между мультиколлинеарностью и плохой подготовкой. Кроме того, в комментарии Suncoolsu указал, как предварительная стандартизация может помочь с полиномиальной регрессией. Если бы это случилось вновь, я бы проголосовал за него ;-).
whuber
@ Ηλίας: продукт может быть нестабильным во многих приложениях. Многие нули могут страдать, если отдельные регрессоры имеют несколько нулей; его абсолютное значение, скорее всего, будет иметь сильный положительный перекос, что приведет к появлению некоторых точек с высоким левереджем; это может усилить отдаленные данные, особенно одновременные выбросы, еще больше увеличивая их влияние. Это также может быть довольно сложно интерпретировать, особенно если регрессоры уже являются выражениями исходных переменных (таких как log-файлы или корни).
whuber

Ответы:

13

Основные компоненты имеют большой смысл ... математически. Тем не менее, я бы с осторожностью использовал простой математический трюк в этом случае и надеялся, что мне не нужно думать о своей проблеме.

Я бы посоветовал немного подумать о том, какие у меня есть предикторы, что такое независимая переменная, почему мои предикторы коррелируют, действительно ли некоторые из моих предикторов измеряют одну и ту же базовую реальность (если так, могу ли я просто работать с одно измерение и какой из моих предикторов будет лучше для этого), для чего я делаю анализ - если я не заинтересован в умозаключении, только в предсказании, тогда я мог бы на самом деле оставить все как есть, пока будущее Значения предикторов аналогичны прошлым.

С. Коласса - Восстановить Монику
источник
4
Полностью согласен, +1. Но характеристика PCA как «математического трюка» несправедливо унижает его, ИМХО. Если вы согласны (я не уверен, что вы согласны), что суммирование или усреднение групп регрессоров, как предполагает Srikant, будет приемлемым, тогда PCA должно быть таким же приемлемым, и это обычно улучшает соответствие. Более того, основные компоненты могут дать представление о том, какие группы предикторов коррелируют и как они соотносятся: это отличный инструмент для мышления, которое вы защищаете.
whuber
2
@whuber, я вижу и согласен с вашей точкой зрения, и я не хочу унижать PCA, поэтому определенно +1. Я просто хотел указать, что слепое использование PCA без рассмотрения и размышлений о лежащей в основе проблеме (которую никто здесь не защищает) оставило бы у меня плохое предчувствие ...
С. Коласса - Восстановить Монику
11

Вы можете использовать основные компоненты или регрессию гребня для решения этой проблемы. С другой стороны, если у вас есть две переменные, которые достаточно сильно коррелированы, чтобы вызвать проблемы с оценкой параметров, то вы почти наверняка можете отбросить любую из двух, не теряя много с точки зрения прогнозирования - потому что две переменные несут одинаковую информацию , Конечно, это работает только тогда, когда проблема связана с двумя сильно коррелированными независимыми лицами. Когда проблема включает в себя более двух переменных, которые вместе почти коллинеарны (любые две из которых могут иметь только умеренную корреляцию), вам, вероятно, понадобится один из других методов.

Brett
источник
2
(+1) Теперь проблема в том, что ОП не указывает, сколько переменных входит в модель, потому что, если их много, может быть лучше сделать как усадку, так и выбор переменной, например, с помощью критерия эластичности (который является комбинацией штрафов Лассо и Риджа).
ЧЛ
3

Вот еще одна мысль, которая вдохновлена ответом Стефана :

Если некоторые из ваших коррелированных регрессоров значимо связаны (например, они представляют собой разные показатели интеллекта, например, словесные, математические и т. Д.), То вы можете создать одну переменную, которая измеряет одну и ту же переменную, используя один из следующих методов:

  • Суммируйте регрессоры (уместно, если регрессоры являются компонентами целого, например, словесный IQ + математический IQ = общий IQ)

  • Среднее значение регрессоров (подходит, если регрессоры измеряют одну и ту же базовую конструкцию, например, размер левого башмака, размер правого башмака для измерения длины ног)

  • Факторный анализ (для учета ошибок в измерениях и для выявления скрытого фактора)

Затем вы можете отбросить все коррелированные регрессоры и заменить их одной переменной, которая получается из приведенного выше анализа.

Сообщество
источник
1
Это имеет смысл, если все регрессоры измеряются по одной шкале. В психологии различные подшкалы часто измеряются в разных масштабах (и все еще коррелируются), поэтому взвешенная сумма или среднее значение (которое на самом деле здесь одинаково) было бы уместно. И, конечно же, можно считать, что PCA обеспечивает именно такой вид взвешивания путем вычисления осей максимальной дисперсии.
С. Коласса - Восстановить Монику
2

Я собирался сказать то же самое, что и Стефан Коласса выше (так что я проголосовал за его ответ). Я бы только добавил, что иногда мультиколлинеарность может быть связана с использованием обширных переменных, которые все сильно коррелируют с некоторой мерой размера, и вещи могут быть улучшены с помощью интенсивных переменных, то есть деления всего на некоторую меру размера. Например, если ваши единицы - это страны, вы можете разделить их по населению, области или ВНП, в зависимости от контекста.

Да, и чтобы ответить на вторую часть исходного вопроса: я не могу придумать ни одной ситуации, когда было бы неплохо добавить произведение всех коррелированных регрессоров. Как это поможет? Что бы это значило?

универсальный
источник
Моей первоначальной идеей было добавить учесть парное взаимодействие регрессоров
orsλ'ας
Часто хорошей идеей является учет парного взаимодействия. Но не все из них: Вы должны думать, что имеет смысл!
kjetil b halvorsen
1

Я не эксперт в этом, но моей первой мыслью было бы провести анализ главных компонентов на переменных предиктора, а затем использовать полученные главные компоненты для прогнозирования вашей зависимой переменной.

Майк Лоуренс
источник
КК
п
@chl Хорошая мысль. Но поскольку главные компоненты представляют собой линейные комбинации, довольно просто (хотя иногда и немного сложно) составить подогнанную регрессионную модель (= одно линейное преобразование) с проекцией на компоненты (= другое линейное преобразование), чтобы получить интерпретируемую линейную модель с участием всех исходных переменных. Это немного похоже на методы ортогонализации. Также обратите внимание, что последние предложения Сриканта (сумма или усреднение регрессоров) по существу приближают к главному собственному вектору, но вызывают аналогичные объяснительные трудности.
whuber
@whuber Да, я согласен с вами обоими. Я широко использовал регрессию PLS и CCA, поэтому в этом случае нам приходится иметь дело с линейными комбинациями с обеих сторон (например, максимальная ковариация или критерии корреляции); при большом числе предикторов интерпретация канонических векторов является болезненной, поэтому мы просто смотрим на наиболее способствующие переменные. Теперь я могу представить, что здесь не так много предикторов, чтобы все ваши аргументы (@Stephan, @Mike) имели смысл.
ЧЛ
-1

Икс

ИксяJsTaNdaрdяZеdзнак равноИксяJ-Икс,J¯sJ

Это не лекарство, а определенно шаг в правильном направлении.

suncoolsu
источник
8
Линейные преобразования (подобные этим) никогда не меняют коэффициенты корреляции. Смысл стандартизации заключается в улучшении кондиционирования нормальной матрицы.
whuber
1
Стандартизация переменных не повлияет на корреляции между независимыми переменными и не "уменьшит эффект корреляции" каким-либо образом, который я могу придумать в отношении этой проблемы.
Бретт
2
@Brett, типичный пример, где помогает стандартизация, - полиномиальная регрессия . Всегда рекомендуется стандартизировать регрессоры. Стандартизация не меняет матрицу корреляции, но делает матрицу var cov (которая теперь является матрицей корреляции) хорошо себя ведет (это называется условием @whuber, указывающим на номер условия матрицы, IMHO).
Suncoolsu
Согласовано. Центрирование полезно при вводе терминов более высокого порядка, таких как термины полинома или взаимодействия. Похоже, что это не так и не поможет решить проблему взаимосвязанных предикторов.
Бретт
Я удалил его, потому что не хотел путать людей с неправильным ответом. Вероятно, модераторы снова подняли этот вопрос.
Suncoolsu