Есть ли интуитивное объяснение, почему мультиколлинеарность является проблемой линейной регрессии?

85

В вики обсуждаются проблемы, возникающие, когда мультиколлинеарность является проблемой линейной регрессии. Основная проблема заключается в том, что мультиколлинеарность приводит к нестабильным оценкам параметров, что очень затрудняет оценку влияния независимых переменных на зависимые переменные.

Я понимаю технические причины проблем (возможно, не в состоянии инвертировать , плохо обусловленные т. Д.), Но я ищу более интуитивное (возможно, геометрическое?) Объяснение этой проблемы.X ' XXXXX

Есть ли геометрическая или, возможно, какая-то другая форма легко понятного объяснения того, почему мультиколлинеарность проблематична в контексте линейной регрессии?


источник
4
Действительно отличный вопрос. Лучший способ понять что-то - это множественное объяснение.
Тал Галили
1
См. Также связанный вопрос и визуальное объяснение stats.stackexchange.com/q/70899/3277
ttnphns

Ответы:

89

Рассмотрим простейший случай, когда регрессирует против и и где и имеют высокую положительную корреляцию. Тогда эффект на трудно отличить от эффекта на , так как любое увеличение имеет тенденцию быть связано с увеличением .X Z X Z X Y Z Y X ZYXZXZXYZYXZ

Другой способ взглянуть на это - рассмотреть уравнение. Если мы напишем , то коэффициент - это увеличение для каждого увеличения на единицу при постояннойНо на практике часто невозможно удерживать постоянным, и положительная корреляция между и означает, что увеличение на единицу обычно сопровождается некоторым увеличением одновременно.b 1 Y X Z Z X Z X ZY=b0+b1X+b2Z+eb1YXZZXZXZ

Аналогичное, но более сложное объяснение имеет место для других форм мультиколлинеарности.

Роб Хиндман
источник
20
+1 Чрезвычайно патологический случай, когда подчеркивает это дальше. и были бы неразличимы. X=ZY=b0+b1X+b2Z+eY=b0+(b1+b2)X+0Z+e
vqv
1
+1 Мне нравится этот ответ, потому что один из самых распространенных вопросов справки - почему и . Вывод должен учитывать реалистичные входные данные. b1>0b2<0
Муратоа
29

Однажды я ел суши и думал, что это может стать хорошей интуитивной демонстрацией плохо обусловленных проблем. Предположим, вы хотели показать кому-то самолет, соприкасающийся двумя палками у основания.

Вы, вероятно, держите палочки, ортогональные друг другу. Эффект дрожания ваших рук в самолете заставляет его немного колебаться вокруг того, что вы надеялись показать людям, но, наблюдая за вами некоторое время, они получают хорошее представление о том, какую плоскость вы намеревались продемонстрировать.

Но допустим, вы сближаете концы палочек и наблюдаете, как дрожат ваши руки. Самолет, который он формирует, станет гораздо более диким. Ваша аудитория должна будет смотреть дольше, чтобы понять, какой самолет вы пытаетесь продемонстрировать.

Snackrifice
источник
+1 Я думаю, что это наиболее прямо отвечает на вопрос. Потому что, хотя мультиколлинеарность влияет на интерпретацию. Почему это проблема, imho является стабильность в оценке.
Муратоа
+1 За публикацию этого комментария (и только этот комментарий в истории Stackoverflow) под именем Snackrifice.
stackoverflax
19

Геометрический подход заключается в рассмотрении квадратов проекции наименьшее на подпространство , натянутое на .YX

Скажем, у вас есть модель:

E[Y|X]=β1X1+β2X2

Наше пространство оценки - это плоскость, определяемая векторами и и задача состоит в том, чтобы найти координаты, соответствующие которые будут описывать вектор , проекция наименьших квадратов на эту плоскость.X1X2(β1,β2)Y^Y

Теперь предположим, что , т.е. они коллинеарны. Тогда подпространство, определяемое и является просто линией, и у нас есть только одна степень свободы. Поэтому мы не можем определить два значения и как нас просили.X1=2X2X1X2β1β2

АРС
источник
2
Я давно проголосовал, но перечитывая ваш ответ, он напоминает мне, что мне всегда нравились плоские ответы на сложные вопросы от Кристенсена ( j.mp/atRp9w ).
ЧЛ
@chl: круто, определенно собираюсь проверить это тогда. :)
АРС
14

Два человека толкают валун в гору. Вы хотите знать, как сильно каждый из них толкает. Предположим, вы наблюдаете, как они толкаются вместе в течение десяти минут, а валун движется на 10 футов. Первый парень сделал всю работу, а второй просто притворялся? Или наоборот? Или 50-50? Так как обе силы работают в одно и то же время, вы не можете разделить силу одной из них в отдельности. Все, что вы можете сказать, это то, что их суммарная сила составляет 1 фут в минуту.

А теперь представьте, что первый парень толкает себя на минуту, затем девять минут со вторым парнем, а последняя минута - просто толчок второго парня. Теперь вы можете использовать оценки сил в первую и последнюю минуты, чтобы определить силу каждого человека в отдельности. Несмотря на то, что они по-прежнему в основном работают одновременно, тот факт, что есть небольшая разница, позволяет получить оценки силы для каждого из них.

Если бы вы видели, как каждый мужчина толкался независимо в течение полных десяти минут, это дало бы вам более точные оценки сил, чем если бы они сильно перекрывались.

Я оставляю читателю в качестве упражнения расширение этого случая на одного человека, толкающего в гору, а другого - на спуск (он все еще работает).

Идеальная мультиколлинеарность не позволяет вам оценить силы по отдельности; почти мультиколлинеарность дает вам большие стандартные ошибки.

Чарли
источник
6

То, как я думаю об этом, на самом деле с точки зрения информации. Скажем , каждый из и имеет некоторую информацию о . Чем больше коррелированы и друг с другом, тем больше информационное содержание о из и сходно или частично совпадает, так что для идеально коррелированных и , это действительно тот же информационный контент. Если мы теперь поместим и в одну и ту же (регрессионную) модель для объяснения , модель попытается «распределить» информацию, которая ( X 2 Y X 1 X 2 Y X 1 X 2 X 1 X 2 X 1 X 2 Y X 1 X 2 Y X 1 X 2 X 1 X 2 X X 1 X 2 b 1 X 1 + b 2 X 2 б 1 б 2X1X2YX1X2YX1X2X1X2X1X2YX1 , ) содержит около для каждого из и в некоторой произвольной форме. Нет действительно хорошего способа распределить это, так как любое разделение информации по-прежнему приводит к сохранению полной информации из ( , ) в модели (для идеально коррелированных , это действительно случай неидентификации). Это приводит к нестабильным индивидуальным оценкам для отдельных коэффициентов и , хотя, если вы посмотрите на прогнозные значения протяжении многих прогонов и оценки иX2YX1X2X1X2XX1X2b1X1+b2X2b1b2они будут довольно стабильными.

Abhijit
источник
4

Моя (очень) непонятная интуиция для этого заключается в том, что модели OLS требуется определенный уровень «сигнала» в переменной X, чтобы обнаружить, что это дает «хорошее» предсказание для Y. Если один и тот же «сигнал» распространяется на многие X (поскольку они коррелированы), то ни один из коррелированных X не может дать достаточно «доказательств» (статистической значимости), что он является реальным предиктором.

Предыдущие (замечательные) ответы прекрасно объясняют, почему это так.

Таль Галили
источник
3

Предположим, что два человека сотрудничали и сделали научное открытие. Легко определить их уникальный вклад (кто что сделал), когда два человека совершенно разные (один - теоретик, а другой - хорош в эксперименте), в то время как трудно различить их уникальные влияния (коэффициенты в регрессии), когда они Близнецы действуют аналогично.

молодой
источник
2

Если два регрессора идеально коррелируют, их коэффициенты будет невозможно рассчитать; полезно подумать, почему их было бы трудно интерпретировать, если бы мы могли их вычислить . Фактически это объясняет, почему трудно интерпретировать переменные, которые не являются полностью коррелированными, но также не являются действительно независимыми.

Предположим, что нашей зависимой переменной является ежедневный запас рыбы в Нью-Йорке, а наши независимые переменные включают в себя одну для того, идет ли дождь в этот день и одну для количества приманки, купленной в этот день. Когда мы собираем наши данные, мы не понимаем, что каждый раз, когда идет дождь, рыбаки не покупают приманку, а каждый раз, когда это не так, они покупают постоянное количество приманки. Таким образом, Bait и Rain идеально соотнесены, и когда мы запускаем нашу регрессию, мы не можем рассчитать их коэффициенты. В действительности, Bait и Rain, вероятно, не идеально соотнесены, но мы бы не хотели включать их обоих в качестве регрессоров, не очистив их от их эндогенности.

Митч Лен
источник
1

Я думаю, что фиктивная переменная ловушка предоставляет еще одну полезную возможность показать, почему мультиколлинеарность является проблемой. Напомним, что это возникает, когда у нас есть постоянный и полный набор макетов в модели. Затем сумма манекенов составляет одну постоянную, то есть мультиколлинеарность.

Например, манекен для мужчин и один для женщин:

yi=β0+β1Mani+β2Womani+ui

β1YManiβ2YWomani

β0E(yi|Mani=0,Womani=0)

Кристоф Ханк
источник