Я заметил, что во время работы с моделью многомерной регрессии наблюдался небольшой, но заметный эффект мультиколлинеарности, измеряемый коэффициентами инфляции дисперсии, в категориях категориальной переменной (конечно, после исключения эталонной категории).
Например, скажем, у нас есть набор данных с непрерывной переменной y и одной номинальной категориальной переменной x, которая имеет k возможных взаимоисключающих значений. Мы кодируем эти возможных значений как фиктивные переменные 0/1 . Затем мы запускаем регрессионную модель . Оценки VIF для фиктивных переменных оказываются ненулевыми. Фактически, по мере увеличения количества категорий, VIF увеличиваются. Центрирование фиктивных переменных не меняет VIF.x 1 , x 2 , … , x k y = b 0 + b 1 x 1 + b 2 x 2 + ⋯ + b k - 1 x k - 1 k - 1
Интуитивное объяснение, по-видимому, состоит в том, что взаимоисключающее условие категорий в пределах категориальной переменной вызывает эту небольшую мультиколлинеарность. Является ли это тривиальным открытием или это вопрос, который необходимо учитывать при построении регрессионных моделей с категориальными переменными?