Что означает «нормализация» и как проверить, что выборка или распределение нормализованы?

18

У меня есть вопрос, в котором он просит проверить, нормализовано ли равномерное распределение ( Uniform(a,b) ).

  1. С одной стороны, что означает для любого распределения быть нормализованным?
  2. И второе: как нам проверить, нормализовано ли распределение?

Я понимаю, вычисляя

Xmeansd
мы получаем нормализованныеданные, но здесь мы просим проверить,нормализованолираспределение.
Ada
источник
3
Что значит нормализовать распределение, не так просто (и обычно нормализуется не само распределение, а случайная величина). Например, в случае униформы некоторые люди могут иметь в виду «линейно измененный масштаб, чтобы получить стандартную униформу» (т.е. чтобы получить a=0 и ) ... в то время как другой человек может иметь в виду «линейно измененный масштаб, так что чтобы получить среднее значение 0 и SD 1 ". Что касается униформы, я обычно предпочитаю первое, но, как вы видите из ответа ниже, другие люди могут воспринимать это как нечто другое. Лучший вариант - попросить человека, использующего этот термин, быть менее двусмысленным. b=1
Glen_b
1
Более общепринятые термины стандартизированы (для достижения среднего значения ноль и SD равно единице) и нормализованы (для доведения диапазона до интервала или для масштабирования векторной нормы до 1 ). Таким образом, повторное выражение X ( X - среднее ) / S D является стандартизацией, тогда как умножение плотности f на константу C дает - C f ( x ) d x =[0,1]1X(Xmean)/SDfC являетсянормализацией, потому чтоf ( x ) d x являетсянормой L 1 для f . Cf(x)dx=1f(x)dxL1f
whuber
Также спросил на математике.
Дилип Сарват
1
Пожалуйста, не кросс-пост , @ Ада. Это против политики SE. Если вы публикуете сайт Q на 1, а затем думаете, что вы должны были опубликовать его на другом сайте, отметьте свой вопрос и попросите модераторов перенести его для вас.
gung - Восстановить Монику

Ответы:

33

К сожалению, термины по-разному используются в разных областях, разными людьми в одной и той же области и т. Д., Поэтому я не уверен, насколько хорошо это можно ответить здесь для вас. Вы должны убедиться, что вы знаете определение, которое ваш инструктор / учебник использует для «нормализованного». Тем не менее, вот некоторые общие определения:

По центру: Стандартизировано: X - среднее

Xmean
нормализовано:X-мин(X)
Xmeansd
Нормализацияв этом смысле изменяет ваши данные в единичный интервал. Стандартизацияпревращает ваши данные вz-показатели, как отмечает @Jeff. Ацентрированиепросто делает среднее ваших данных равным0.
Xmin(X)max(X)min(X)
z0

Здесь стоит признать, что все три из них являются линейными преобразованиями ; как таковые, они не меняют форму вашего дистрибутива . То есть иногда люди называют преобразование score «нормализующим» и считают, что из -за ассоциации z- scores с нормальным распределением это делало их данные нормально распределенными. Это не так (как замечает @Jeff, и как вы могли бы сказать, нанося на график ваши данные до и после). Если вам интересно, вы можете изменить форму своих данных, например, с помощью семейства преобразований Box-Cox . zz

Что касается того, как вы могли бы проверить эти преобразования, это зависит от того, что именно подразумевается под этим. Если они имеют в виду просто проверить, что код работает правильно, вы можете проверить средства, SD, минимумы и максимумы.

Gung - Восстановить Монику
источник
1
Я видел, что нормализованное используется для предложения стандартизированного или для предложения подгонки к стандартному нормальному распределению, т. , поэтому из трех нормированных , скорее всего, будет неправильно понято. Комментарий Ады о применении нормализующей константы к функции правдоподобия является еще одной возможной интерпретацией. Φ1(F(X))
Генри
4

Используя формулу, предоставленную вами для каждой оценки в вашей выборке, вы конвертируете их все в z-оценки .

Чтобы убедиться, что вы правильно вычислили все z-баллы, найдите новое среднее значение и стандартное отклонение для вашей выборки. Если среднее значение равно а стандартное отклонение равно0 , вы все сделали правильно.1

Цель этого состоит в том, чтобы поместить все в единицы относительно стандартного отклонения вашей выборки. Это может быть полезно для различных целей, таких как сравнение двух разных наборов данных, которые были оценены с использованием разных единиц (возможно, сантиметров и дюймов).

Важно не путать это с вопросом, является ли распределение нормальным , т. Е. Приближается ли оно к гауссову распределению .

Джефф
источник
поэтому, чтобы проверить, было ли нормализовано равномерное распределение, было бы эквивалентно сказать E (X) = 0 и Var (X) = 1, где X ~ Uniform (a, b)?
2
данные даже не должны быть из равномерного распределения, они могут быть из любого распределения. Кроме того, это верно только с использованием предоставленной вами формулы; данные могут быть нормализованы другими способами, кроме использования z-показателей. например, показатели IQ, как говорят, нормализуются со счетом 100 и стандартным отклонением 15.
Джефф
1

После консультации с ТП вопрос был задан:

f(x)dx=1

f(x)

Ada
источник
2
Используемая здесь терминология заключается в том, что функция плотности вероятности распределения нормирована. Потому что это отражает аксиоматический факт, что полная вероятность должна быть равна1На вопрос, нормализуется ли само распределение (в этом смысле), всегда один и тот же тривиальный ответ: конечно.
whuber
Это то, что нас просят проверить. f (x) не обязательно должен быть pdf, и это может быть любая неотрицательная функция. Для любой неотрицательной функции, где вышеупомянутое не удовлетворяет, мы всегда можем умножить на нормирующую константу
Ада
1
Не всегда. Например, пустье(Икс)знак равное-Икснеотрицательная функция, определенная для всех действительных чисел: нормализующая константа отсутствует. Но когда вам, как и в вашем вопросном заявлении, говорят, что «такой-то и есть PDF-файл для такого-и-такого распределения», тогда нечего проверять: по определению он интегрируется в единство.
whuber
Это верно не любая неотрицательная функция, где мы можем заставить это удовлетворять вышеупомянутому условию, даже если мы умножаем на нормализующую константу.
Ада