Что является примером идеальной коллинеарности с точки зрения матрицы дизайна ?
Я хотел бы привести пример, в котором не может быть оценен, потому что не является обратимым.
regression
multicollinearity
matrix
matrix-inverse
TsTeaTime
источник
источник
Ответы:
Вот пример с 3 переменными, , и , связанными уравнениемy x1 x2
гдеε∼N(0,1)
Конкретные данные
Таким образом, очевидно, что кратно поэтому мы имеем идеальную коллинеарность.x2 x1
Мы можем написать модель как
где:
Итак, мы имеем
Теперь вычислим определитель :XX′
В R мы можем показать это следующим образом:
создать
x2
, кратныйx1
создать у, линейную комбинацию
x1
,x2
и некоторые случайностиобратите внимание, что
Не удается оценить значение для
x2
коэффициента:Модель матрицы имеет вид:X
Так являетсяXX′
который не является обратимым, как показано
Или:
источник
Вот несколько довольно распространенных сценариев, создающих совершенную мультиколлинеарность, то есть ситуации, в которых столбцы матрицы проектирования линейно зависимы. Напомним из линейной алгебры, что это означает, что существует линейная комбинация столбцов матрицы проекта (чьи коэффициенты не все равны нулю), которая равна нулю. Я привел несколько практических примеров, которые помогут объяснить, почему эта ловушка случается так часто - я столкнулся почти со всеми из них!
Одна переменная кратна другой , независимо от того, существует ли термин перехват: возможно, потому что вы записали одну и ту же переменную дважды, используя разные единицы (например, «длина в сантиметрах» точно в 100 раз больше, чем «длина в метрах») или потому что Вы записали переменную один раз в виде необработанного числа и один раз в виде пропорции или процента, когда знаменатель фиксирован (например, «площадь колонии чашки Петри» и «процент колонизации чашки Петри» будут точными числами, кратными друг другу, если площадь каждой чашки Петри то же самое). У нас есть коллинеарность, потому что, если где и - переменные (столбцы матрицы проекта), а - скалярная постоянная, w x a 1 ( → w ) - a ( → x )wi=axi w x a 1(w⃗ )−a(x⃗ ) является линейной комбинацией переменных, равной нулю.
Существует термин «перехват», и одна переменная отличается от другой константой : это произойдет, если вы отцентрируете переменную ( ) и в регрессию как необработанные и центрированные . Это также произойдет, если ваши переменные измеряются в разных единичных системах, которые отличаются на постоянную величину, например, если - это «температура в Кельвинах», а как «температура в ° C», тогда . Если мы рассматриваем член перехвата как переменную, которая всегда равна (представлена в виде столбца единиц, , в матрице дизайна), то для некоторой константыwi=xi−x¯ x w w x wi=xi+273.15 1 1⃗ n wi=xi+k k означает, что является линейной комбинацией столбцов , и матрицы проектирования, равной нулю.1(w⃗ )−1(x⃗ )−k(1⃗ n) w x 1
Существует термин «перехват», и одна переменная задается аффинным преобразованием другой : т.е. у вас есть переменные и , связанные с помощью где и - константы. Например, это происходит, если вы стандартизируете переменную как и включаете в регрессию как необработанные переменные и стандартизированные . Это также происходит, если вы записываете как «температуру в ° F», а как «температуру в ° C», поскольку эти единичные системы не имеют общего нуля, а связаны какw x wi=axi+b a b zi=xi−x¯sx x z w x wi=1.8xi+32 , Или в бизнес-контексте предположим, что для каждого заказа существует фиксированная стоимость (например, покрывающая доставку), а также стоимость за проданную единицу; тогда, если - это стоимость заказа а - количество заказанных единиц, мы имеем . Интересующая линейная комбинация равна . Обратите внимание, что если , то (3) включает в себя (2) как частный случай; если , то (3) включает в себя (1) как частный случай.b $a $wi i xi wi=axi+b 1(w⃗ )−a(x⃗ )−b(1⃗ n)=0⃗ a=1 b=0
Существует термин «перехват», и сумма нескольких переменных является фиксированной (например, в известной «ловушке фиктивной переменной») : например, если у вас есть «процент удовлетворенных клиентов», «процент неудовлетворенных клиентов» и «процент клиентов, не удовлетворенных не будучи неудовлетворенным », тогда эти три переменные всегда (за исключением ошибки округления) будут суммироваться до 100. Одна из этих переменных - или, альтернативно, член перехвата - должна быть исключена из регрессии для предотвращения коллинеарности. «Ловушка фиктивной переменной» возникает, когда вы используете индикаторные переменные (более часто, но менее полезно называемые «фиктивные») для каждого возможного уровня категориальной переменной. Например, предположим, вазы производятся в красных, зеленых или синих цветовых схемах. Если вы записали категориальную переменную "
red
green
иblue
не было бы бинарные переменные, которые хранятся в1
течение «да» и0
для «нет») , то для каждой вазе только одна из переменных будет один, и , следовательноred + green + blue = 1
. Так как есть вектор единиц для члена перехвата, линейная комбинация1(red) + 1(green) + 1(blue) - 1(1) = 0
. Обычное средство здесь - сбросить перехват или один из индикаторов (например, пропуститьred
), который становится базовым или контрольным уровнем. В этом случае коэффициент регрессии дляgreen
будет указывать на изменение среднего отклика, связанного с переключением с красной вазы на зеленую, с сохранением постоянных других объясняющих переменных.Существует как минимум два подмножества переменных, каждая из которых имеет фиксированную сумму , независимо от того, существует ли термин перехват: предположим, что вазы в (4) были созданы в трех размерах, а категориальная переменная для размера была сохранена как три дополнительные индикаторные переменные , Мы бы имелиu,v,w,x ui+vi=k1 xi+yi=k2 k2(u⃗ )+k2(v⃗ )−k1(w⃗ )−k1(x⃗ )=0⃗
large + medium + small = 1
. Тогда у нас есть линейная комбинация1(large) + 1(medium) + 1(small) - 1(red) - 1(green) - 1(blue) = 0
, даже когда нет термина «перехват». Эти два подмножества не должны совместно использовать одну и ту же сумму, например, если у нас есть объяснительные переменные такие что каждые и то .Одна переменная определяется как линейная комбинация нескольких других переменных : например, если вы записываете длину , ширину и периметр каждого прямоугольника, то поэтому мы имеем линейную комбинацию . Пример с термином перехвата: предположим, что бизнес по почтовым заказам имеет две товарные линии, и мы записываем, что заказ состоял из первого продукта по себестоимости единицы продукции и второго по цене единицы продукции , с фиксированная стоимость доставки . Если мы также включаем стоимость заказаl w p pi=2li+2wi 1(p⃗ )−2(l⃗ )−2(w⃗ )=0⃗ i ui $a vi $b $c $x в качестве пояснительной переменной, тогда и т. д. . Это очевидное обобщение (3). Это также дает нам другой способ мышления о (4): как только мы знаем все столбцы одной из подмножества переменных, чья сумма является фиксированной, то оставшаяся часть является их дополнением, поэтому может быть выражена как их линейная комбинация и их сумма. , Если мы знаем, что 50% клиентов были удовлетворены, а 20% были неудовлетворены, то 100% - 50% - 20% = 30% не должны быть ни удовлетворены, ни неудовлетворены; если мы знаем, что ваза не красная ( ) и она зеленая ( ), то мы знаем, что она не синяя ( ).xi=aui+bvi+c 1(x⃗ )−a(u⃗ )−b(v⃗ )−c(1⃗ n)=0⃗
red=0
green=1
blue = 1(1) - 1(red) - 1(green) = 1 - 0 - 1 = 0
Одна переменная является константой и равна нулю , независимо от того, есть ли термин перехвата: в наблюдательном исследовании переменная будет постоянной, если ваша выборка не демонстрирует достаточных (любых!) Вариаций. Могут быть различия в популяции, которые не отражены в вашей выборке, например, если существует очень распространенное модальное значение: возможно, размер вашей выборки слишком мал и поэтому вряд ли будет включать какие-либо значения, которые отличаются от режима, или ваши измерения были недостаточно точный, чтобы обнаружить небольшие отклонения от режима. В качестве альтернативы могут быть теоретические причины отсутствия вариаций, особенно если вы изучаете субпопуляцию. При исследовании свойств новой сборки в Лос-Анджелесе не удивительно, что каждая точка данных имеетx 1(x⃗ ) 0⃗
AgeOfProperty = 0
иState = California
! В экспериментальном исследовании вы могли измерить независимую переменную, которая находится под экспериментальным контролем. Если одна из ваших объясняющих переменных будет и константой, и нулем, то мы сразу получим, что линейная комбинация (с нулевым коэффициентом для любых других переменных) равна .Существует член перехвата, и хотя бы одна переменная является постоянной : если является постоянной величиной, так что каждая , то линейная комбинация .x xi=k≠0 1(x⃗ )−k(1⃗ n)=0⃗
Как минимум две переменные являются постоянными , независимо от того, существует ли член-перехват: если каждый и , то линейная комбинация .wi=k1≠0 xi=k2≠0 k2(w⃗ )−k1(x⃗ )=0⃗
Число столбцов матрицы проекта, , превышает количество строк,k n : даже если между вашими переменными нет концептуальной связи, математически необходимо, чтобы столбцы вашей матрицы дизайна были линейно зависимыми, когда . Просто невозможно иметь линейно независимых векторов в пространстве с числом измерений ниже : например, в то время как вы можете нарисовать два независимых вектора на листе бумаги (двумерная плоскость,k>n k k R2 ) любой дополнительный вектор, нарисованный на странице, должен находиться в пределах их диапазона и, следовательно, быть линейной комбинацией их. Обратите внимание, что термин пересечения добавляет столбец единиц в матрицу проекта, поэтому считается одним из ваших столбцов. (Этот сценарий часто называют проблемой «большой , маленький »: см. Также этот связанный вопрос CV .)k p n
Примеры данных с кодом R
Каждый пример дает матрицу дизайна , матрицу (обратите внимание, что она всегда квадратная и симметричная) и . Обратите внимание, что если сингулярен (нулевой определитель, следовательно, не обратим), то мы не можем оценить . Условие, что не является особенным, эквивалентно условию, что имеет полный ранг, поэтому его столбцы линейно независимы: см. Этот вопрос Math SE или этот и его обратное .X X′X det(X′X) X′X β^=(X′X)−1X′y X′X X
(1) Один столбец кратен другому
(2) Термин перехвата и одна переменная отличается от другой на постоянную
(3) Термин перехвата и одна переменная является аффинным преобразованием другого
(4) Член перехвата и сумма нескольких переменных фиксированы
(4a) Член перехвата с фиктивной переменной ловушкой
(5) Два подмножества переменных с фиксированной суммой
(6) Одна переменная является линейной комбинацией других
(7) Одна переменная постоянна и равна нулю
(8) Член перехвата и одна постоянная переменная
(9) две постоянные переменные
(10)k>n
источник
Несколько тривиальных примеров, помогающих интуиции:
Существует множество способов, чтобы один столбец данных был линейной функцией ваших других данных. Некоторые из них очевидны (например, метры против сантиметров), в то время как другие могут быть более тонкими (например, возраст и годы обучения детей младшего возраста).
Примечания: пусть обозначает первый столбец , - второй столбец и т. Д., А обозначает вектор единиц, который входит в матрицу дизайна X если вы включите константу в свою регрессию. х х 2 1x1 X x2 1
источник