Если один горячий вектор масштабируется с числовыми атрибутами

20

В случае наличия комбинации категориальных и числовых атрибутов я обычно конвертирую категориальные атрибуты в один горячий вектор. Мой вопрос заключается в том, чтобы оставить эти векторы как есть и масштабировать числовые атрибуты посредством стандартизации / нормализации, или мне следует масштабировать один горячий вектор вместе с числовыми атрибутами?

Суреш Касипанды
источник

Ответы:

11

После преобразования в числовую форму модели не реагируют по-разному на столбцы с горячим кодированием, чем на любые другие числовые данные. Таким образом, существует явный прецедент для нормализации значений {0,1}, если вы делаете это по любой причине для подготовки других столбцов.

Эффект от этого будет зависеть от класса модели и типа применяемой вами нормализации, но я заметил некоторые (небольшие) улучшения при масштабировании до 0, std 1 для категориальных данных с горячим кодированием при обучении нейронных сетей.

Это может иметь значение и для классов моделей, основанных на метриках расстояния.

К сожалению, как и большинство подобных вариантов, часто приходится пробовать оба подхода и выбирать тот, который имеет лучший показатель.

Нил Слэйтер
источник
1
Формулировка была немного неясной. Вы говорите, что нормализуете столбцы с горячим кодированием, только если вы нормализовали столбцы, не относящиеся к типу ohe?
Info5ek
@ Info5ek: я говорю, что, возможно, было бы лучше нормализовать столбцы с горячим кодированием, и если вы уже делаете это для других столбцов, то вы также можете попробовать. Здесь нет фиксированных правил, слишком многое зависит от проблемы.
Нил Слэйтер