На работе мы обсуждали это, так как мой начальник никогда не слышал о нормализации. В линейной алгебре нормализация, по-видимому, относится к делению вектора на его длину. И в статистике стандартизация, по-видимому, относится к вычитанию среднего значения, которое затем делится на его SD. Но они кажутся взаимозаменяемыми и с другими возможностями.
При создании какой-то универсальной оценки, которая составляет разных показателя, которые имеют разные средние значения и разные SD, вы бы нормализовали, стандартизировали или что-то еще? Один человек сказал мне, что нужно просто взять каждую метрику и разделить их по их SD, индивидуально. Затем суммируем два. И это приведет к универсальной оценке, которая может быть использована для оценки обеих метрик.
Например, скажем, у вас было количество людей, которые едут на метро на работу (в Нью-Йорке) и количество людей, которые ездили на работу (в Нью-Йорке).
автомобилей ⟶ у
Любая статья или главы книг для справки будет принята с благодарностью. СПАСИБО!
Также вот еще один пример того, что я пытаюсь сделать.
Представьте, что вы декан колледжа и обсуждаете требования для поступления. Возможно, вы захотите, чтобы студенты имели по крайней мере определенный средний балл и определенный тестовый балл. Было бы хорошо, если бы они оба были в одном масштабе, потому что тогда вы можете просто сложить их вместе и сказать: «Любой, у кого есть хотя бы 7.0, может быть допущен». Таким образом, если у будущего студента будет средний балл 4,0, он может набрать всего 3,0 балла и все равно получить допуск. И наоборот, если у кого-то был средний балл 3,0, он все равно мог получить допуск с оценкой 4,0.
Но это не так. ACT по 36-балльной шкале, и большинство GPA на 4.0 (некоторые 4.3, да, раздражает). Поскольку я не могу просто добавить ACT и GPA, чтобы получить какой-то универсальный балл, как я могу преобразовать их, чтобы их можно было добавить, создавая таким образом универсальный балл при поступлении. И тогда, как декан, я мог просто автоматически принять кого-либо с оценкой выше определенного порога. Или даже автоматически принимать всех, чей счет находится в верхних 95% ... такого рода вещи.
Будет ли это нормализацией? стандартизация? или просто делим каждый на их SD и затем суммируем?
Ответы:
Нормализация изменяет значения в диапазон [0,1]. Это может быть полезно в некоторых случаях, когда все параметры должны иметь одинаковую положительную шкалу. Однако выбросы из набора данных теряются.
Для большинства приложений рекомендуется стандартизация.
источник
В деловом мире «нормализация» обычно означает, что диапазон значений «нормируется на значение от 0,0 до 1,0». «Стандартизация» обычно означает, что диапазон значений «стандартизирован» для измерения количества стандартных отклонений значения от его среднего значения. Однако не все с этим согласятся. Лучше объяснить ваши определения, прежде чем использовать их.
В любом случае, ваше преобразование должно обеспечить что-то полезное.
В своем примере поезда / вагона вы получаете что-нибудь, зная, сколько стандартных отклонений от их среднего значения лежит в каждом значении? Если вы нанесете эти «стандартизированные» меры друг на друга как график xy, вы можете увидеть корреляцию (см. Первый график справа):
http://en.wikipedia.org/wiki/Correlation_and_dependence
Если так, значит ли это что-нибудь для вас?
Что касается вашего второго примера, если вы хотите «приравнять» GPA от одной шкалы к другой шкале, что общего у этих шкал? Другими словами, как вы можете преобразовать эти минимумы в эквивалентные, а максимумы в эквивалентные?
Вот пример «нормализации»:
Нормализация Ссылка
Имеет ли смысл по-разному оценивать оценки ACT и GPA после получения баллов GPA и ACT в взаимозаменяемой форме? Если да, то что для вас что-то значит?
Изменить 1 (05/03/2011) ======================================== знак равно
Во- первых, я хотел бы проверить ссылки , предложенные whuber выше. Суть в том, что в обеих ваших задачах с двумя переменными вам придётся придумать «эквивалентность» одной переменной по сравнению с другой. И способ отличить одну переменную от другой. Другими словами, даже если вы можете упростить это до простых линейных отношений, вам понадобятся «веса», чтобы отличать одну переменную от другой.
Вот пример проблемы с двумя переменными:
Утилиты с несколькими атрибутами
На последней странице, если вы можете сказать, что стандартизированное движение поездов по
U1(x)
сравнению со стандартизированным автомобильным движениемU2(y)
является «аддитивно независимым», то вы можете обойтись простым уравнением, например:Где k1 = 0,5 означает, что вы безразличны к стандартизированному движению автомобилей / поездов. Более высокое k1 означало бы, что движение поездов
U1(x)
более важно.Однако, если эти две переменные не являются «аддитивно независимыми», вам придется использовать более сложное уравнение. Одна возможность показана на странице 1:
В любом случае вам придётся придумать утилиту,
U(x, y)
которая имеет смысл.Те же общие концепции взвешивания / сравнения применимы к вашей проблеме GPA / ACT. Даже если они «нормализованы», а не «стандартизированы».
Последний вопрос Я знаю, что вам это не понравится, но определение термина «аддитивно независимый» приведено на странице 4 следующей ссылки. Я искал менее вызывающее определение, но не смог найти. Вы можете посмотреть вокруг, чтобы найти что-то лучше.
Аддитивно независимый
Цитирую ссылку:
Как показано в верхней части этого ответа, если вы построите стандартизированное движение поездов по сравнению со стандартизованным движением автомобилей на графике xy, вы можете увидеть корреляцию. Если это так, то вы застряли с вышеупомянутым нелинейным уравнением полезности или чем-то подобным.
источник
Ответ прост, но вам не понравится: это зависит. Если вы оцениваете 1 стандартное отклонение от обоих показателей в равной степени, тогда стандартизация - это то, что вам нужно (примечание: на самом деле вы изучаете , потому что делите на оценку SD населения).
Если нет, вполне вероятно, что стандартизация будет хорошим первым шагом, после которого вы можете придать больший вес одному из баллов, умножив его на коэффициент выбора.
источник
Чтобы решить проблему GPA / ACT или поезда / автомобиля, почему бы не использовать среднее геометрическое ?
n√ (a1 × a2 × ... × an)
Где
a*
это значение из распределения иn
является индексом распределения.Это среднее геометрическое значение гарантирует, что каждое значение независимо от его масштаба одинаково влияет на среднее значение. Увидеть больше в среднем геометрическом
источник
В моей области, науки о данных, нормализация - это преобразование данных, которое позволяет легко сравнивать полученные данные. Существует много типов нормализаций. Масштабирование является одним из них. Вы также можете регистрировать данные или делать что-либо еще, что вы хотите. Тип используемой вами нормализации будет зависеть от желаемого результата, поскольку все нормализации преобразуют данные во что-то другое.
Вот некоторые из примеров нормализации, которые я рассматриваю. Масштабирование нормализации Квантиль нормализация
источник