Для данного набора данных разброс часто рассчитывается либо как стандартное отклонение, либо как IQR (межквартильный диапазон).
Принимая во внимание, что a standard deviation
нормализовано (z-показатели и т. Д.), И поэтому его можно использовать для сравнения разброса по двум различным популяциям, это не относится к IQR, поскольку выборки из двух разных популяций могут иметь значения в двух совершенно разных шкалах,
e.g.
Pop A: 100, 67, 89, 75, 120, ...
Pop B: 19, 22, 43, 8, 12, ...
Мне нужна надежная (непараметрическая) мера, которую я могу использовать для сравнения различий в разных группах населения.
Выбор 1:
IQR / Median
- это было бы по аналогии с коэффициентом вариации , т.е. .
Выбор 2:
Range / IQR
Вопрос: Что является наиболее значимым показателем для сравнения различий между популяциями? И если это Вариант 1, полезен ли Вариант 2 для чего-либо / значимого или это принципиально некорректная мера?
Ответы:
Вопрос подразумевает, что стандартное отклонение (SD) как-то нормализовано, поэтому его можно использовать для сравнения изменчивости двух разных популяций. Не так. Как сказали Петр и Иоанн, эта нормализация выполняется так же, как и при расчете коэффициента вариации (CV), который равен SD / Mean. SD находится в тех же единицах, что и исходные данные. Напротив, CV - это безразмерное соотношение.
Ваш выбор 1 (IQR / Median) аналогичен CV. Как и резюме, это имеет смысл только тогда, когда данные являются данными отношения. Это означает, что ноль действительно ноль. Вес ноль - это не вес. Длина ноль - это не длина. В качестве контрпримера, это не имеет смысла для температуры в C или F, так как нулевая температура (C или F) не означает, что температуры нет. Простое переключение между использованием шкалы C или F даст вам другое значение для CV или для отношения IQR / Median, что делает оба эти значения бессмысленными.
Я согласен с Питером и Джоном, что ваша вторая идея (Range / IQR) не будет очень устойчивой к выбросам, поэтому, вероятно, не будет полезной.
источник
z-scores
стандартизации значений и нормализации их положения в распределении с точки зрения среднего значения и стандартного отклонения, с этой проблемой, которая о возможности ранжировать группы продуктов в порядке их изменчивости. Выбор вашего ответа как правильного, потому что, хотя Петр и Иоанн были очень полезны, ваш предупредил меня о концептуальной путанице. Хорошее замечание о Варианте 1, ограниченном использовании около медианы 0. К счастью, в моей проблеме мне не нужно об этом беспокоиться.Важно понимать, что минимальное и максимальное часто не очень хорошие статистические данные для использования (то есть они могут сильно колебаться от выборки к выборке и не следуют нормальному распределению, как, скажем, среднее значение, возможно, из-за центральной теоремы о пределе) , В результате диапазон редко является хорошим выбором для чего-либо другого, кроме как для определения диапазона этого точного образца . Для простой непараметрической статистики, представляющей изменчивость, межквартильный диапазон намного лучше. Однако, хотя я вижу аналогию между IQR / медианой и коэффициентом вариации, я не думаю, что это, вероятно, будет лучшим вариантом.
источник
MADM/median
, по сути среднее отличие от среднего значения. Давайте назовем этот Вариант 3. Согласитесь с вашей оценкой Варианта 1, так что его нет, спасибо. Когда вы предлагаете «лучше», какие атрибуты можно использовать, чтобы сравнить Вариант 2 с Вариантом 3, чтобы увидеть, что лучше?MADM/median
попробую вместеIQR/median
. Параллельное сравнение может быть интересным. (+1 за интересное предложение)«Вариант 1» - это то, что вам нужно, если вы используете непараметрические параметры для общей цели уменьшения влияния выбросов. Даже если вы используете его из-за перекоса, который также имеет побочный эффект, обычно имеющий крайние значения в хвосте, это может быть выбросами. На ваш «Выбор 2» могут сильно повлиять выбросы или любые экстремальные значения, в то время как компоненты вашего первого уравнения относительно устойчивы к ним.
[Это будет немного зависеть от того, какой тип IQR вы выберете (см. Справку R по квантилю).]
источник
quartile( )
функцию Excel , а затем беруIQR := Q3 - Q1
. Мои цифры взяты из временных рядов еженедельных измерений за год. Измерения являются показателями промышленной эффективности и поэтому являются результатом непрерывного распределения. Разные группы населения - это разные товарные группы. В этой ситуации я не думаю, что разные определения будут сильно отличаться на практике?Я предпочитаю не вычислять меры как CV, потому что у меня почти всегда есть произвольное происхождение для случайной величины. Что касается выбора надежной меры дисперсии, трудно превзойти среднее различие Джини, которое является средним значением всех возможных абсолютных значений различий между двумя наблюдениями. Для эффективного вычисления см., Например
rms
,GiniMd
функцию пакета R. При нормальных значениях средняя разница Джини равна 0,98, так же как и SD для оценки дисперсии.источник
Как @John, я никогда не слышал об этом определении коэффициента вариации. Я бы не назвал это так, что если бы я использовал это, это бы запутало людей.
"Что наиболее полезно?" будет зависеть от того, для чего вы хотите его использовать. Конечно, выбор 1 более устойчив к выбросам, если вы уверены, что именно этого вы и хотите. Но какова цель сравнения двух распределений? Что ты пытаешься сделать?
Одна альтернатива состоит в том, чтобы стандартизировать обе меры и затем смотреть на резюме.
Другой сюжет QQ.
Есть и много других.
источник
В этой статье представлены две надежные альтернативы для коэффициента вариации. Одним из них является межквартильный диапазон, разделенный на медиану, то есть:
IQR / медиана = (Q3-Q1) / медиана
Второе - это медианное абсолютное отклонение, деленное на медиану, то есть:
MAD / Медиана
Они сравнивают их и приходят к выводу, что, в общем, второе немного менее изменчиво и, вероятно, лучше для большинства приложений.
источник