В чем разница между данными «нормализация» и данными «масштабирование»? До сих пор я думал, что оба термина относятся к одному и тому же процессу, но теперь я понимаю, что есть нечто большее, чего я не знаю / не понимаю. Также, если есть разница между нормализацией и масштабированием, когда мы должны использовать нормализацию, а не масштабирование и наоборот?
Пожалуйста, опишите пример.
Ответы:
Я не знаю об «официальном» определении, и даже если оно существует, вы не должны доверять ему, поскольку увидите, что оно используется на практике непоследовательно.
При этом масштабирование в статистике обычно означает линейное преобразование вида .е( х ) = а х + б
Нормализация может означать применение преобразования так, чтобы преобразованные данные были примерно нормально распределены, но это также может означать просто размещение различных переменных в общем масштабе. Стандартизация, которая означает вычитание среднего значения и деление на стандартное отклонение, является примером более позднего использования. Как вы можете видеть, это также пример масштабирования. Примером для первого может послужить журнал для нормальных распределенных данных.
Но что вы должны отнять, так это то, что когда вы читаете это, вы должны искать более точное описание того, что сделал автор. Иногда вы можете получить это из контекста.
источник
Масштабирование - это личный выбор, чтобы числа были правильными, например, от нуля до единицы или от ста до ста. Например, преобразование данных, приведенных в миллиметрах, в метры, потому что они более удобны, или имперские в метрические.
В то время как нормализация подразумевает масштабирование до внешнего «стандарта» - локальной нормы - такого как удаление среднего значения и деление на стандартное отклонение выборки, например, чтобы ваши отсортированные данные можно было сравнить с кумулятивной нормой или кумулятивным пуассоном, или без разницы.
Поэтому, если лектор или менеджер хочет, чтобы данные были «нормализованы», это означает «изменить их по- моему » ;-)
источник
Я не знаю, имеете ли вы в виду именно это, но я вижу, что многие люди ссылаются на нормализацию, что означает стандартизацию данных. Стандартизация преобразует ваши данные, поэтому они имеют среднее значение 0 и стандартное отклонение 1:
Я также вижу людей, использующих термин нормализация для масштабирования данных, как при преобразовании ваших данных в диапазон 0-1:
Это может сбить с толку!
Оба метода имеют свои плюсы и минусы. При масштабировании набора данных со слишком большим количеством выбросов ваши не-выбросные данные могут оказаться в очень небольшом интервале. Поэтому, если в вашем наборе данных слишком много выбросов, вы можете рассмотреть возможность его стандартизации. Тем не менее, когда вы это сделаете, у вас получатся отрицательные данные (иногда вы этого не хотите) и неограниченные данные (вы, возможно, тоже этого не захотите).
источник
Центрирование означает подстановку среднего значения случайной величины из переменных. Т.е. х-хи
Масштабирование означает деление переменной на ее стандартное отклонение. То есть си / с
Комбинация двух названа нормализацией или стандартизацией. Т.е. x-xi / s
источник