Во многих алгоритмах машинного обучения масштабирование функций (или переменное масштабирование, нормализация) является обычным этапом предварительной обработки. Википедия - Масштабирование функций - этот вопрос был близким Вопрос № 41704 - Как и почему работают нормализация и масштабирование функций?
У меня есть два вопроса, особенно в отношении деревьев решений:
- Существуют ли какие-либо реализации дерева решений, которые требуют масштабирования функций? У меня сложилось впечатление, что критерии разделения большинства алгоритмов безразличны к масштабу.
- Рассмотрим эти переменные: (1) Единицы, (2) Часы, (3) Единицы в час - лучше ли оставить эти три переменные «как есть» при подаче в дерево решений или мы столкнемся с каким-то типом конфликта поскольку «нормализованная» переменная (3) соотносится с (1) и (2)? То есть, вы бы атаковали эту ситуацию, бросая все три переменные в микс, или вы обычно выбираете какую-то комбинацию из трех или просто используете «нормализованную / стандартизированную» функцию (3)?
источник