Есть ли интуитивное объяснение, почему мультиколлинеарность является проблемой линейной регрессии?

85

В вики обсуждаются проблемы, возникающие, когда мультиколлинеарность является проблемой линейной регрессии. Основная проблема заключается в том, что мультиколлинеарность приводит к нестабильным оценкам параметров, что очень затрудняет оценку влияния независимых переменных на зависимые переменные.

Я понимаю технические причины проблем (возможно, не в состоянии инвертировать , плохо обусловленные т. Д.), Но я ищу более интуитивное (возможно, геометрическое?) Объяснение этой проблемы. $X' X$ $X' X$

Есть ли геометрическая или, возможно, какая-то другая форма легко понятного объяснения того, почему мультиколлинеарность проблематична в контексте линейной регрессии?

4

Действительно отличный вопрос. Лучший способ понять что-то - это множественное объяснение.

Тал Галили

1

См. Также связанный вопрос и визуальное объяснение stats.stackexchange.com/q/70899/3277

ttnphns

89

Рассмотрим простейший случай, когда регрессирует против и и где и имеют высокую положительную корреляцию. Тогда эффект на трудно отличить от эффекта на , так как любое увеличение имеет тенденцию быть связано с увеличением . $Y$ $X$ $Z$ $X$ $Z$ $X$ $Y$ $Z$ $Y$ $X$ $Z$

Другой способ взглянуть на это - рассмотреть уравнение. Если мы напишем , то коэффициент - это увеличение для каждого увеличения на единицу при постояннойНо на практике часто невозможно удерживать постоянным, и положительная корреляция между и означает, что увеличение на единицу обычно сопровождается некоторым увеличением одновременно. $Y = b_0 + b_1X + b_2Z + e$ $b_1$ $Y$ $X$ $Z$ $Z$ $X$ $Z$ $X$ $Z$

Аналогичное, но более сложное объяснение имеет место для других форм мультиколлинеарности.

Роб Хиндман
источник

20

+1 Чрезвычайно патологический случай, когда подчеркивает это дальше. и были бы неразличимы.

X = Z

$X = Z$

Y = b_{0} + b_{1} X + b_{2} Z + e

$Y = b_0 + b_1 X + b_2 Z + e$

Y = b_{0} + (b_{1} + b_{2}) X + 0 Z + e

$Y = b_0 + (b_1 + b_2) X + 0 Z + e$

vqv

1

+1 Мне нравится этот ответ, потому что один из самых распространенных вопросов справки - почему и . Вывод должен учитывать реалистичные входные данные.

b_{1} > 0

$b_1 > 0$

b_{2} < 0

$b_2 < 0$

Муратоа

29

Однажды я ел суши и думал, что это может стать хорошей интуитивной демонстрацией плохо обусловленных проблем. Предположим, вы хотели показать кому-то самолет, соприкасающийся двумя палками у основания.

Вы, вероятно, держите палочки, ортогональные друг другу. Эффект дрожания ваших рук в самолете заставляет его немного колебаться вокруг того, что вы надеялись показать людям, но, наблюдая за вами некоторое время, они получают хорошее представление о том, какую плоскость вы намеревались продемонстрировать.

Но допустим, вы сближаете концы палочек и наблюдаете, как дрожат ваши руки. Самолет, который он формирует, станет гораздо более диким. Ваша аудитория должна будет смотреть дольше, чтобы понять, какой самолет вы пытаетесь продемонстрировать.

Snackrifice
источник

+1 Я думаю, что это наиболее прямо отвечает на вопрос. Потому что, хотя мультиколлинеарность влияет на интерпретацию. Почему это проблема, imho является стабильность в оценке.

Муратоа

+1 За публикацию этого комментария (и только этот комментарий в истории Stackoverflow) под именем Snackrifice.

stackoverflax

19

Геометрический подход заключается в рассмотрении квадратов проекции наименьшее на подпространство , натянутое на . $Y$ $X$

Скажем, у вас есть модель:

$E[Y | X] = \beta_{1} X_{1} + \beta_{2} X_{2}$

Наше пространство оценки - это плоскость, определяемая векторами и и задача состоит в том, чтобы найти координаты, соответствующие которые будут описывать вектор , проекция наименьших квадратов на эту плоскость. $X_{1}$ $X_{2}$ $(\beta_{1}, \beta_{2})$ $\hat{Y}$ $Y$

Теперь предположим, что , т.е. они коллинеарны. Тогда подпространство, определяемое и является просто линией, и у нас есть только одна степень свободы. Поэтому мы не можем определить два значения и как нас просили. $X_{1} = 2 X_{2}$ $X_{1}$ $X_{2}$ $\beta_{1}$ $\beta_{2}$

АРС
источник

2

Я давно проголосовал, но перечитывая ваш ответ, он напоминает мне, что мне всегда нравились плоские ответы на сложные вопросы от Кристенсена ( j.mp/atRp9w ).

ЧЛ

@chl: круто, определенно собираюсь проверить это тогда. :)

АРС

14

Два человека толкают валун в гору. Вы хотите знать, как сильно каждый из них толкает. Предположим, вы наблюдаете, как они толкаются вместе в течение десяти минут, а валун движется на 10 футов. Первый парень сделал всю работу, а второй просто притворялся? Или наоборот? Или 50-50? Так как обе силы работают в одно и то же время, вы не можете разделить силу одной из них в отдельности. Все, что вы можете сказать, это то, что их суммарная сила составляет 1 фут в минуту.

А теперь представьте, что первый парень толкает себя на минуту, затем девять минут со вторым парнем, а последняя минута - просто толчок второго парня. Теперь вы можете использовать оценки сил в первую и последнюю минуты, чтобы определить силу каждого человека в отдельности. Несмотря на то, что они по-прежнему в основном работают одновременно, тот факт, что есть небольшая разница, позволяет получить оценки силы для каждого из них.

Если бы вы видели, как каждый мужчина толкался независимо в течение полных десяти минут, это дало бы вам более точные оценки сил, чем если бы они сильно перекрывались.

Я оставляю читателю в качестве упражнения расширение этого случая на одного человека, толкающего в гору, а другого - на спуск (он все еще работает).

Идеальная мультиколлинеарность не позволяет вам оценить силы по отдельности; почти мультиколлинеарность дает вам большие стандартные ошибки.

Чарли
источник

6

То, как я думаю об этом, на самом деле с точки зрения информации. Скажем , каждый из и имеет некоторую информацию о . Чем больше коррелированы и друг с другом, тем больше информационное содержание о из и сходно или частично совпадает, так что для идеально коррелированных и , это действительно тот же информационный контент. Если мы теперь поместим и в одну и ту же (регрессионную) модель для объяснения , модель попытается «распределить» информацию, которая ( $X_{1}$ $X_{2}$ $Y$ $X_{1}$ $X_{2}$ $Y$ $X_{1}$ $X_{2}$ $X_{1}$ $X_{2}$ $X_{1}$ $X_{2}$ $Y$ $X_{1}$ , ) содержит около для каждого из и в некоторой произвольной форме. Нет действительно хорошего способа распределить это, так как любое разделение информации по-прежнему приводит к сохранению полной информации из ( , ) в модели (для идеально коррелированных , это действительно случай неидентификации). Это приводит к нестабильным индивидуальным оценкам для отдельных коэффициентов и , хотя, если вы посмотрите на прогнозные значения протяжении многих прогонов и оценки и $X_{2}$ $Y$ $X_{1}$ $X_{2}$ $X_{1}$ $X_{2}$ $X$ $X_{1}$ $X_{2}$ $b_{1}X_{1}+b_{2}X_{2}$ $b_{1}$ $b_{2}$ они будут довольно стабильными.

Abhijit
источник

4

Моя (очень) непонятная интуиция для этого заключается в том, что модели OLS требуется определенный уровень «сигнала» в переменной X, чтобы обнаружить, что это дает «хорошее» предсказание для Y. Если один и тот же «сигнал» распространяется на многие X (поскольку они коррелированы), то ни один из коррелированных X не может дать достаточно «доказательств» (статистической значимости), что он является реальным предиктором.

Предыдущие (замечательные) ответы прекрасно объясняют, почему это так.

Таль Галили
источник

3

Предположим, что два человека сотрудничали и сделали научное открытие. Легко определить их уникальный вклад (кто что сделал), когда два человека совершенно разные (один - теоретик, а другой - хорош в эксперименте), в то время как трудно различить их уникальные влияния (коэффициенты в регрессии), когда они Близнецы действуют аналогично.

молодой
источник

2

Если два регрессора идеально коррелируют, их коэффициенты будет невозможно рассчитать; полезно подумать, почему их было бы трудно интерпретировать, если бы мы могли их вычислить . Фактически это объясняет, почему трудно интерпретировать переменные, которые не являются полностью коррелированными, но также не являются действительно независимыми.

Предположим, что нашей зависимой переменной является ежедневный запас рыбы в Нью-Йорке, а наши независимые переменные включают в себя одну для того, идет ли дождь в этот день и одну для количества приманки, купленной в этот день. Когда мы собираем наши данные, мы не понимаем, что каждый раз, когда идет дождь, рыбаки не покупают приманку, а каждый раз, когда это не так, они покупают постоянное количество приманки. Таким образом, Bait и Rain идеально соотнесены, и когда мы запускаем нашу регрессию, мы не можем рассчитать их коэффициенты. В действительности, Bait и Rain, вероятно, не идеально соотнесены, но мы бы не хотели включать их обоих в качестве регрессоров, не очистив их от их эндогенности.

Митч Лен
источник

1

Я думаю, что фиктивная переменная ловушка предоставляет еще одну полезную возможность показать, почему мультиколлинеарность является проблемой. Напомним, что это возникает, когда у нас есть постоянный и полный набор макетов в модели. Затем сумма манекенов составляет одну постоянную, то есть мультиколлинеарность.

Например, манекен для мужчин и один для женщин:

y_{i} = β_{0} + β_{1} M a n_{i} + β_{2} W o m a n_{i} + u_{i}

$y_i=\beta_0+\beta_1Man_i+\beta_2Woman_i+u_i$

$\beta_1$ $Y$ $Man_i$ $\beta_2$ $Y$ $Woman_i$

$\beta_0$ $E(y_i|Man_i=0,Woman_i=0)$

Кристоф Ханк
источник

Есть ли интуитивное объяснение, почему мультиколлинеарность является проблемой линейной регрессии?

Ответы: