Нормализация против масштабирования

46

В чем разница между данными «нормализация» и данными «масштабирование»? До сих пор я думал, что оба термина относятся к одному и тому же процессу, но теперь я понимаю, что есть нечто большее, чего я не знаю / не понимаю. Также, если есть разница между нормализацией и масштабированием, когда мы должны использовать нормализацию, а не масштабирование и наоборот?

Пожалуйста, опишите пример.

d.putto
источник
6
Нормализация обычно означает преобразование ваших наблюдений в f ( x ) (где f - измеримая, обычно непрерывная функция) так, чтобы они выглядели нормально распределенными . Некоторыми примерами преобразований для нормализации данных являются степенные преобразования . Масштабирование означает просто f ( x ) = c x , c R , то есть умножение ваших наблюдений на постоянную c, которая меняет масштаб (например, от нанометров до километров). Иксе(Икс)еf(x)=cxcRс
1
Связанные / также представляющие интерес: в чем разница между нормализацией и стандартизацией .
gung - Восстановить Монику
нормализация также является методом масштабирования, так же, как стандартизация
У меня недостаточно репутации на статистике, чтобы отвечать. Я думаю, что заголовок вашего вопроса должен быть «Нормализация против Стандартизации», так как эти два подхода - разные подходы. Нормализация масштабирует значения в диапазон 0 и 1, в то время как стандартизация сдвигает распределение, чтобы иметь 0 в качестве среднего и 1 в качестве стандартного отклонения.
Хамид Гейдарян

Ответы:

24

Я не знаю об «официальном» определении, и даже если оно существует, вы не должны доверять ему, поскольку увидите, что оно используется на практике непоследовательно.

При этом масштабирование в статистике обычно означает линейное преобразование вида .е(Икс)знак равноaИкс+б

Нормализация может означать применение преобразования так, чтобы преобразованные данные были примерно нормально распределены, но это также может означать просто размещение различных переменных в общем масштабе. Стандартизация, которая означает вычитание среднего значения и деление на стандартное отклонение, является примером более позднего использования. Как вы можете видеть, это также пример масштабирования. Примером для первого может послужить журнал для нормальных распределенных данных.

Но что вы должны отнять, так это то, что когда вы читаете это, вы должны искать более точное описание того, что сделал автор. Иногда вы можете получить это из контекста.

Erik
источник
15

Масштабирование - это личный выбор, чтобы числа были правильными, например, от нуля до единицы или от ста до ста. Например, преобразование данных, приведенных в миллиметрах, в метры, потому что они более удобны, или имперские в метрические.

В то время как нормализация подразумевает масштабирование до внешнего «стандарта» - локальной нормы - такого как удаление среднего значения и деление на стандартное отклонение выборки, например, чтобы ваши отсортированные данные можно было сравнить с кумулятивной нормой или кумулятивным пуассоном, или без разницы.

Поэтому, если лектор или менеджер хочет, чтобы данные были «нормализованы», это означает «изменить их по- моему » ;-)

Филип Окли
источник
10

Я не знаю, имеете ли вы в виду именно это, но я вижу, что многие люди ссылаются на нормализацию, что означает стандартизацию данных. Стандартизация преобразует ваши данные, поэтому они имеют среднее значение 0 и стандартное отклонение 1:

x <- (x - mean(x)) / sd(x)

Я также вижу людей, использующих термин нормализация для масштабирования данных, как при преобразовании ваших данных в диапазон 0-1:

x <- (x - min(x)) / (max(x) - min(x))

Это может сбить с толку!

Оба метода имеют свои плюсы и минусы. При масштабировании набора данных со слишком большим количеством выбросов ваши не-выбросные данные могут оказаться в очень небольшом интервале. Поэтому, если в вашем наборе данных слишком много выбросов, вы можете рассмотреть возможность его стандартизации. Тем не менее, когда вы это сделаете, у вас получатся отрицательные данные (иногда вы этого не хотите) и неограниченные данные (вы, возможно, тоже этого не захотите).

Рената
источник
3

Центрирование означает подстановку среднего значения случайной величины из переменных. Т.е. х-хи

Масштабирование означает деление переменной на ее стандартное отклонение. То есть си / с

Комбинация двух названа нормализацией или стандартизацией. Т.е. x-xi / s

Франкфурт Огунфунминийи
источник
Вопрос дубликат.
Майкл Р. Черник