Я изучаю масштабирование данных, и в частности метод стандартизации. Я понял математику, стоящую за этим, но мне не понятно, почему важно дать функциям нулевое среднее и единичную дисперсию.
Можете ли вы объяснить мне?
Я изучаю масштабирование данных, и в частности метод стандартизации. Я понял математику, стоящую за этим, но мне не понятно, почему важно дать функциям нулевое среднее и единичную дисперсию.
Можете ли вы объяснить мне?
Ответы:
Вопрос о том, важно ли это и почему, зависит от контекста.
Например, для деревьев решений с градиентным усилением это не важно - эти алгоритмы ML «не заботятся» о монотонных преобразованиях данных; они просто ищут точки, чтобы разделить его.
Например, для линейных предикторов масштабирование может улучшить интерпретируемость результатов. Если вы хотите думать о величине коэффициентов как о некотором показателе того, насколько объект влияет на результат, тогда объекты нужно как-то масштабировать до той же области.
Для некоторых предикторов, в частности NN, масштабирование и, в частности, масштабирование до определенного диапазона, может быть важным по техническим причинам. Некоторые из слоев используют функции, которые эффективно изменяются только в некоторой области (аналогично гиперболическому семейству функций ), и если объекты находятся слишком далеко от диапазона, может произойти насыщение. Если это произойдет, числовые производные будут работать плохо, и алгоритм не сможет сходиться к хорошей точке.
источник
В случае нулевого среднего это связано с тем, что некоторые модели машинного обучения не включают термин смещения в свое представление, поэтому мы должны перемещать данные вокруг источника, прежде чем подавать его в алгоритм, чтобы компенсировать отсутствие термина смещения. В случае единичной дисперсии это происходит потому, что многие алгоритмы машинного обучения используют какое-то расстояние (например, евклидово) для определения или прогнозирования. Если конкретный объект имеет широкие значения (т. Е. Большое отклонение), расстояние будет сильно зависеть от этого объекта, а влияние других объектов будет игнорироваться. Кстати, некоторые алгоритмы оптимизации (включая градиентный спуск) имеют лучшую производительность при стандартизации данных.
источник
Однако здесь может возникнуть сомнение, что даже если функции не нормализованы, то веса, присвоенные ему во время обучения, могут помочь сбору данных в ожидаемом результате во время обучения. Проблема в том, что для обучения и получения результатов потребуется очень много времени.
Следовательно, предлагается привести все функции в один и тот же масштаб, чтобы они были достаточно легкими для обучения. Ниже ссылка также обсуждает аналогичную концепцию. /stats/41704/how-and-why-do-normalization-and-feature-scaling-work
источник