Я узнал, что для создания регрессионной модели мы должны позаботиться о категориальных переменных, преобразовав их в фиктивные переменные. Например, если в нашем наборе данных есть переменная типа location:
Location
----------
Californian
NY
Florida
Мы должны конвертировать их как:
1 0 0
0 1 0
0 0 1
Однако было предложено отказаться от одной фиктивной переменной, независимо от того, сколько фиктивных переменных там.
Зачем нам отбрасывать одну фиктивную переменную?
machine-learning
regression
categorical-data
Митхун Саркер Шувро
источник
источник
Ответы:
Проще говоря, потому что один уровень вашей категориальной функции (здесь местоположение) становится контрольной группой во время фиктивного кодирования для регрессии и является избыточным. Я цитирую здесь форму: «Категориальная переменная из K категорий или уровней, как правило, входит в регрессию как последовательность фиктивных переменных K-1. Это равносильно линейной гипотезе на уровне средних».
Это уже обсуждалось в этом очень хорошем ответе stats.stackexchange .
Мне сказали, что в Coursera есть продвинутый курс от Яндекса, который более подробно освещает эту тему, если у вас все еще есть сомнения, см. Здесь . Обратите внимание, что вы всегда можете бесплатно проверить содержание курса. ;-)
Еще один хороший пост, если вы хотите подробное объяснение с множеством примеров со статистической точки зрения и не ограничиваясь только фиктивным кодированием, посмотрите это из UCLA (в R)
Обратите внимание, что если вы используете
pandas.get_dummies
, есть параметр, т.drop_first
Е. Чтобы получить k-1 манекенов из k категориальных уровней, удалив первый уровень. Пожалуйстаdefault = False
, обратите внимание , это означает, что ссылка не отбрасывается и k манекенов создано из k категориальных уровней!источник
Вам не нужно снижать уровень, в зависимости от вашего варианта использования.
См.
В каких случаях мы не должны опускать первый уровень категориальных переменных?
и гораздо более общий вопрос
В контролируемом обучении, почему плохо иметь взаимосвязанные функции?
источник