Нулевое среднее и единичная дисперсия

10

Я изучаю масштабирование данных, и в частности метод стандартизации. Я понял математику, стоящую за этим, но мне не понятно, почему важно дать функциям нулевое среднее и единичную дисперсию.

Можете ли вы объяснить мне?

Qwerto
источник
Посмотрите на здесь .
СМИ
Это было бы здорово: medium.com/greyatom/…
Лернер Чжан

Ответы:

8

Вопрос о том, важно ли это и почему, зависит от контекста.

  • Например, для деревьев решений с градиентным усилением это не важно - эти алгоритмы ML «не заботятся» о монотонных преобразованиях данных; они просто ищут точки, чтобы разделить его.

  • Например, для линейных предикторов масштабирование может улучшить интерпретируемость результатов. Если вы хотите думать о величине коэффициентов как о некотором показателе того, насколько объект влияет на результат, тогда объекты нужно как-то масштабировать до той же области.

  • Для некоторых предикторов, в частности NN, масштабирование и, в частности, масштабирование до определенного диапазона, может быть важным по техническим причинам. Некоторые из слоев используют функции, которые эффективно изменяются только в некоторой области (аналогично гиперболическому семейству функций ), и если объекты находятся слишком далеко от диапазона, может произойти насыщение. Если это произойдет, числовые производные будут работать плохо, и алгоритм не сможет сходиться к хорошей точке.

введите описание изображения здесь

Ами Таворы
источник
2

В случае нулевого среднего это связано с тем, что некоторые модели машинного обучения не включают термин смещения в свое представление, поэтому мы должны перемещать данные вокруг источника, прежде чем подавать его в алгоритм, чтобы компенсировать отсутствие термина смещения. В случае единичной дисперсии это происходит потому, что многие алгоритмы машинного обучения используют какое-то расстояние (например, евклидово) для определения или прогнозирования. Если конкретный объект имеет широкие значения (т. Е. Большое отклонение), расстояние будет сильно зависеть от этого объекта, а влияние других объектов будет игнорироваться. Кстати, некоторые алгоритмы оптимизации (включая градиентный спуск) имеют лучшую производительность при стандартизации данных.

pythinker
источник
2
  • Всякий раз, когда мы начинаем с какого-либо набора данных в машинном обучении, мы часто предполагаем, что все функции данных одинаково важны с точки зрения вывода, и одна функция не должна доминировать над другой функцией. Это ОБЩАЯ причина, по которой мы решили привести все функции в одном масштабе.
    Однако здесь может возникнуть сомнение, что даже если функции не нормализованы, то веса, присвоенные ему во время обучения, могут помочь сбору данных в ожидаемом результате во время обучения. Проблема в том, что для обучения и получения результатов потребуется очень много времени.
  • Выбрать конкретное число 0 в качестве среднего значения и дисперсию 1 - просто удобство визуализации, и сохранение таких небольших чисел поможет в ускорении обучения.

Следовательно, предлагается привести все функции в один и тот же масштаб, чтобы они были достаточно легкими для обучения. Ниже ссылка также обсуждает аналогичную концепцию. /stats/41704/how-and-why-do-normalization-and-feature-scaling-work

Дивьяншу Шехар
источник