В каких реализациях требуется масштабирование переменных (возможностей) и нормализация (настройка) переменных деревьев решений?

10

Во многих алгоритмах машинного обучения масштабирование функций (или переменное масштабирование, нормализация) является обычным этапом предварительной обработки. Википедия - Масштабирование функций - этот вопрос был близким Вопрос № 41704 - Как и почему работают нормализация и масштабирование функций?

У меня есть два вопроса, особенно в отношении деревьев решений:

  1. Существуют ли какие-либо реализации дерева решений, которые требуют масштабирования функций? У меня сложилось впечатление, что критерии разделения большинства алгоритмов безразличны к масштабу.
  2. Рассмотрим эти переменные: (1) Единицы, (2) Часы, (3) Единицы в час - лучше ли оставить эти три переменные «как есть» при подаче в дерево решений или мы столкнемся с каким-то типом конфликта поскольку «нормализованная» переменная (3) соотносится с (1) и (2)? То есть, вы бы атаковали эту ситуацию, бросая все три переменные в микс, или вы обычно выбираете какую-то комбинацию из трех или просто используете «нормализованную / стандартизированную» функцию (3)?
JasonAizkalns
источник

Ответы:

6

Во-первых, деревья решений обычно не требуют масштабирования. Тем не менее, это помогает с визуализацией / манипулированием данными и может быть полезно, если вы хотите сравнить производительность с другими данными или другими методами, такими как SVM.

Для 2 это вопрос тюнинга. Единицы / час могут рассматриваться как тип переменного взаимодействия и могут иметь предсказательную силу, отличную от каждой отдельно взятой. Это действительно зависит от ваших данных, хотя. Я бы попробовал с и без, чтобы увидеть, есть ли разница.

wwwslinger
источник