В вики обсуждаются проблемы, возникающие, когда мультиколлинеарность является проблемой линейной регрессии. Основная проблема заключается в том, что мультиколлинеарность приводит к нестабильным оценкам параметров, что очень затрудняет оценку влияния независимых переменных на зависимые переменные.
Я понимаю технические причины проблем (возможно, не в состоянии инвертировать , плохо обусловленные т. Д.), Но я ищу более интуитивное (возможно, геометрическое?) Объяснение этой проблемы.X ' X
Есть ли геометрическая или, возможно, какая-то другая форма легко понятного объяснения того, почему мультиколлинеарность проблематична в контексте линейной регрессии?
Ответы:
Рассмотрим простейший случай, когда регрессирует против и и где и имеют высокую положительную корреляцию. Тогда эффект на трудно отличить от эффекта на , так как любое увеличение имеет тенденцию быть связано с увеличением .X Z X Z X Y Z Y X ZY X Z X Z X Y Z Y X Z
Другой способ взглянуть на это - рассмотреть уравнение. Если мы напишем , то коэффициент - это увеличение для каждого увеличения на единицу при постояннойНо на практике часто невозможно удерживать постоянным, и положительная корреляция между и означает, что увеличение на единицу обычно сопровождается некоторым увеличением одновременно.b 1 Y X Z Z X Z X ZY=b0+b1X+b2Z+e b1 Y X Z Z X Z X Z
Аналогичное, но более сложное объяснение имеет место для других форм мультиколлинеарности.
источник
Однажды я ел суши и думал, что это может стать хорошей интуитивной демонстрацией плохо обусловленных проблем. Предположим, вы хотели показать кому-то самолет, соприкасающийся двумя палками у основания.
Вы, вероятно, держите палочки, ортогональные друг другу. Эффект дрожания ваших рук в самолете заставляет его немного колебаться вокруг того, что вы надеялись показать людям, но, наблюдая за вами некоторое время, они получают хорошее представление о том, какую плоскость вы намеревались продемонстрировать.
Но допустим, вы сближаете концы палочек и наблюдаете, как дрожат ваши руки. Самолет, который он формирует, станет гораздо более диким. Ваша аудитория должна будет смотреть дольше, чтобы понять, какой самолет вы пытаетесь продемонстрировать.
источник
Геометрический подход заключается в рассмотрении квадратов проекции наименьшее на подпространство , натянутое на .Y X
Скажем, у вас есть модель:
Наше пространство оценки - это плоскость, определяемая векторами и и задача состоит в том, чтобы найти координаты, соответствующие которые будут описывать вектор , проекция наименьших квадратов на эту плоскость.X1 X2 (β1,β2) Y^ Y
Теперь предположим, что , т.е. они коллинеарны. Тогда подпространство, определяемое и является просто линией, и у нас есть только одна степень свободы. Поэтому мы не можем определить два значения и как нас просили.X1=2X2 X1 X2 β1 β2
источник
Два человека толкают валун в гору. Вы хотите знать, как сильно каждый из них толкает. Предположим, вы наблюдаете, как они толкаются вместе в течение десяти минут, а валун движется на 10 футов. Первый парень сделал всю работу, а второй просто притворялся? Или наоборот? Или 50-50? Так как обе силы работают в одно и то же время, вы не можете разделить силу одной из них в отдельности. Все, что вы можете сказать, это то, что их суммарная сила составляет 1 фут в минуту.
А теперь представьте, что первый парень толкает себя на минуту, затем девять минут со вторым парнем, а последняя минута - просто толчок второго парня. Теперь вы можете использовать оценки сил в первую и последнюю минуты, чтобы определить силу каждого человека в отдельности. Несмотря на то, что они по-прежнему в основном работают одновременно, тот факт, что есть небольшая разница, позволяет получить оценки силы для каждого из них.
Если бы вы видели, как каждый мужчина толкался независимо в течение полных десяти минут, это дало бы вам более точные оценки сил, чем если бы они сильно перекрывались.
Я оставляю читателю в качестве упражнения расширение этого случая на одного человека, толкающего в гору, а другого - на спуск (он все еще работает).
Идеальная мультиколлинеарность не позволяет вам оценить силы по отдельности; почти мультиколлинеарность дает вам большие стандартные ошибки.
источник
То, как я думаю об этом, на самом деле с точки зрения информации. Скажем , каждый из и имеет некоторую информацию о . Чем больше коррелированы и друг с другом, тем больше информационное содержание о из и сходно или частично совпадает, так что для идеально коррелированных и , это действительно тот же информационный контент. Если мы теперь поместим и в одну и ту же (регрессионную) модель для объяснения , модель попытается «распределить» информацию, которая ( X 2 Y X 1 X 2 Y X 1 X 2 X 1 X 2 X 1 X 2 Y X 1 X 2 Y X 1 X 2 X 1 X 2 X X 1 X 2 b 1 X 1 + b 2 X 2 б 1 б 2X1 X2 Y X1 X2 Y X1 X2 X1 X2 X1 X2 Y X1 , ) содержит около для каждого из и в некоторой произвольной форме. Нет действительно хорошего способа распределить это, так как любое разделение информации по-прежнему приводит к сохранению полной информации из ( , ) в модели (для идеально коррелированных , это действительно случай неидентификации). Это приводит к нестабильным индивидуальным оценкам для отдельных коэффициентов и , хотя, если вы посмотрите на прогнозные значения протяжении многих прогонов и оценки иX2 Y X1 X2 X1 X2 X X1 X2 b1X1+b2X2 b1 b2 они будут довольно стабильными.
источник
Моя (очень) непонятная интуиция для этого заключается в том, что модели OLS требуется определенный уровень «сигнала» в переменной X, чтобы обнаружить, что это дает «хорошее» предсказание для Y. Если один и тот же «сигнал» распространяется на многие X (поскольку они коррелированы), то ни один из коррелированных X не может дать достаточно «доказательств» (статистической значимости), что он является реальным предиктором.
Предыдущие (замечательные) ответы прекрасно объясняют, почему это так.
источник
Предположим, что два человека сотрудничали и сделали научное открытие. Легко определить их уникальный вклад (кто что сделал), когда два человека совершенно разные (один - теоретик, а другой - хорош в эксперименте), в то время как трудно различить их уникальные влияния (коэффициенты в регрессии), когда они Близнецы действуют аналогично.
источник
Если два регрессора идеально коррелируют, их коэффициенты будет невозможно рассчитать; полезно подумать, почему их было бы трудно интерпретировать, если бы мы могли их вычислить . Фактически это объясняет, почему трудно интерпретировать переменные, которые не являются полностью коррелированными, но также не являются действительно независимыми.
Предположим, что нашей зависимой переменной является ежедневный запас рыбы в Нью-Йорке, а наши независимые переменные включают в себя одну для того, идет ли дождь в этот день и одну для количества приманки, купленной в этот день. Когда мы собираем наши данные, мы не понимаем, что каждый раз, когда идет дождь, рыбаки не покупают приманку, а каждый раз, когда это не так, они покупают постоянное количество приманки. Таким образом, Bait и Rain идеально соотнесены, и когда мы запускаем нашу регрессию, мы не можем рассчитать их коэффициенты. В действительности, Bait и Rain, вероятно, не идеально соотнесены, но мы бы не хотели включать их обоих в качестве регрессоров, не очистив их от их эндогенности.
источник
Я думаю, что фиктивная переменная ловушка предоставляет еще одну полезную возможность показать, почему мультиколлинеарность является проблемой. Напомним, что это возникает, когда у нас есть постоянный и полный набор макетов в модели. Затем сумма манекенов составляет одну постоянную, то есть мультиколлинеарность.
Например, манекен для мужчин и один для женщин:
источник