Надежная (непараметрическая) мера, такая как коэффициент вариации - IQR / медиана или альтернатива?

12

Для данного набора данных разброс часто рассчитывается либо как стандартное отклонение, либо как IQR (межквартильный диапазон).

Принимая во внимание, что a standard deviationнормализовано (z-показатели и т. Д.), И поэтому его можно использовать для сравнения разброса по двум различным популяциям, это не относится к IQR, поскольку выборки из двух разных популяций могут иметь значения в двух совершенно разных шкалах,

 e.g. 
 Pop A:  100, 67, 89, 75, 120, ...
 Pop B:  19, 22, 43, 8, 12, ...

Мне нужна надежная (непараметрическая) мера, которую я могу использовать для сравнения различий в разных группах населения.

Выбор 1: IQR / Median- это было бы по аналогии с коэффициентом вариации , т.е. .σμ

Выбор 2: Range / IQR

Вопрос: Что является наиболее значимым показателем для сравнения различий между популяциями? И если это Вариант 1, полезен ли Вариант 2 для чего-либо / значимого или это принципиально некорректная мера?

Асад Эбрахим
источник
Спасибо за очень полезное обсуждение. Несколько полезных дополнений - различные определения квартилей и, следовательно, IQR (Джон), стандартное отклонение, которое фактически не стандартизировано (Харви), и графики QQ как инструмент для сравнения двух распределений (Питер). (+1 ко всем трем ответам!)
Асад Эбрахим

Ответы:

13

Вопрос подразумевает, что стандартное отклонение (SD) как-то нормализовано, поэтому его можно использовать для сравнения изменчивости двух разных популяций. Не так. Как сказали Петр и Иоанн, эта нормализация выполняется так же, как и при расчете коэффициента вариации (CV), который равен SD / Mean. SD находится в тех же единицах, что и исходные данные. Напротив, CV - это безразмерное соотношение.

Ваш выбор 1 (IQR / Median) аналогичен CV. Как и резюме, это имеет смысл только тогда, когда данные являются данными отношения. Это означает, что ноль действительно ноль. Вес ноль - это не вес. Длина ноль - это не длина. В качестве контрпримера, это не имеет смысла для температуры в C или F, так как нулевая температура (C или F) не означает, что температуры нет. Простое переключение между использованием шкалы C или F даст вам другое значение для CV или для отношения IQR / Median, что делает оба эти значения бессмысленными.

Я согласен с Питером и Джоном, что ваша вторая идея (Range / IQR) не будет очень устойчивой к выбросам, поэтому, вероятно, не будет полезной.

Харви Мотульский
источник
2
Харви - спасибо - ты прав, SD вообще не нормализуется ... Я путал концепцию z-scoresстандартизации значений и нормализации их положения в распределении с точки зрения среднего значения и стандартного отклонения, с этой проблемой, которая о возможности ранжировать группы продуктов в порядке их изменчивости. Выбор вашего ответа как правильного, потому что, хотя Петр и Иоанн были очень полезны, ваш предупредил меня о концептуальной путанице. Хорошее замечание о Варианте 1, ограниченном использовании около медианы 0. К счастью, в моей проблеме мне не нужно об этом беспокоиться.
Асад Эбрахим
Я хотел бы использовать это в газете. Есть ли хорошее место, на которое он ссылается (книга / где-то рецензируется)?
Бен Болкер,
15

Важно понимать, что минимальное и максимальное часто не очень хорошие статистические данные для использования (то есть они могут сильно колебаться от выборки к выборке и не следуют нормальному распределению, как, скажем, среднее значение, возможно, из-за центральной теоремы о пределе) , В результате диапазон редко является хорошим выбором для чего-либо другого, кроме как для определения диапазона этого точного образца . Для простой непараметрической статистики, представляющей изменчивость, межквартильный диапазон намного лучше. Однако, хотя я вижу аналогию между IQR / медианой и коэффициентом вариации, я не думаю, что это, вероятно, будет лучшим вариантом.

MADMзнак равномедиана(|Икся-медиана(Икс)|)
Gung - Восстановить Монику
источник
1
Интересный выбор MADM/median, по сути среднее отличие от среднего значения. Давайте назовем этот Вариант 3. Согласитесь с вашей оценкой Варианта 1, так что его нет, спасибо. Когда вы предлагаете «лучше», какие атрибуты можно использовать, чтобы сравнить Вариант 2 с Вариантом 3, чтобы увидеть, что лучше?
Асад Эбрахим
1
Атрибуты, которые вы будете использовать, будут зависеть от ваших целей для метрики. Однако я только имел в виду, что это лучшая аналогия для CoV. Обратите внимание, что 3-й квартиль - это медиана ваших данных, которые выше медианы, а 1-й q - медиана тех, кто ниже, поэтому IQR / 2 в долгосрочной перспективе будет равно MADM (nb, они не гарантируются равными в данном образце). IQR в дальнейшем будет отличаться от его истинного значения в поп-музыке, но я не уверен, какие последствия, если таковые имеются, и позиция. эээ. IQR / 2 должен быть таким же, как SE MADM.
gung - Восстановить Монику
Понятно, спасибо за разъяснения. Хороший вопрос о медианной интерпретации Q3 и Q1. Я MADM/medianпопробую вместе IQR/median. Параллельное сравнение может быть интересным. (+1 за интересное предложение)
Асад Эбрахим
6

«Вариант 1» - это то, что вам нужно, если вы используете непараметрические параметры для общей цели уменьшения влияния выбросов. Даже если вы используете его из-за перекоса, который также имеет побочный эффект, обычно имеющий крайние значения в хвосте, это может быть выбросами. На ваш «Выбор 2» могут сильно повлиять выбросы или любые экстремальные значения, в то время как компоненты вашего первого уравнения относительно устойчивы к ним.

[Это будет немного зависеть от того, какой тип IQR вы выберете (см. Справку R по квантилю).]

Джон
источник
Вы правы, я должен был сказать: «Это аналогично определению коэффициента вариации ... (исправлено сейчас в вопросе)!
Асад Эбрахим
Спасибо за комментарий, в зависимости от того, какой тип IQR вы выберете ... - Я не понял, что существует так много возможных определений квартилей / квантилей! Я использую встроенную quartile( )функцию Excel , а затем беру IQR := Q3 - Q1. Мои цифры взяты из временных рядов еженедельных измерений за год. Измерения являются показателями промышленной эффективности и поэтому являются результатом непрерывного распределения. Разные группы населения - это разные товарные группы. В этой ситуации я не думаю, что разные определения будут сильно отличаться на практике?
Асад Эбрахим
6

Я предпочитаю не вычислять меры как CV, потому что у меня почти всегда есть произвольное происхождение для случайной величины. Что касается выбора надежной меры дисперсии, трудно превзойти среднее различие Джини, которое является средним значением всех возможных абсолютных значений различий между двумя наблюдениями. Для эффективного вычисления см., Например rms, GiniMdфункцию пакета R. При нормальных значениях средняя разница Джини равна 0,98, так же как и SD для оценки дисперсии.

Фрэнк Харрелл
источник
3

Как @John, я никогда не слышал об этом определении коэффициента вариации. Я бы не назвал это так, что если бы я использовал это, это бы запутало людей.

"Что наиболее полезно?" будет зависеть от того, для чего вы хотите его использовать. Конечно, выбор 1 более устойчив к выбросам, если вы уверены, что именно этого вы и хотите. Но какова цель сравнения двух распределений? Что ты пытаешься сделать?

Одна альтернатива состоит в том, чтобы стандартизировать обе меры и затем смотреть на резюме.

Другой сюжет QQ.

Есть и много других.

Питер Флом - Восстановить Монику
источник
Хороший вопрос - надо было сказать аналогично коэффициенту вариации (я сделал поправку).
Асад Эбрахим
Мои цифры взяты из временных рядов еженедельных измерений за год. Измерения являются показателями промышленной эффективности и поэтому являются результатом непрерывного распределения. Разные группы населения - это разные товарные группы, и у меня около 50 товарных групп. То, что я пытаюсь сделать, это уметь сравнивать внутреннюю изменчивость между различными товарными группами. В частности, я хочу иметь возможность ранжировать группы продуктов в порядке убывания изменчивости.
Асад Эбрахим
Что вы имеете в виду «стандартизировать обе меры, а затем посмотреть на резюме»? Я думал, что Вариант 1 стандартизирует их ...!
Асад Эбрахим
2

В этой статье представлены две надежные альтернативы для коэффициента вариации. Одним из них является межквартильный диапазон, разделенный на медиану, то есть:

IQR / медиана = (Q3-Q1) / медиана

Второе - это медианное абсолютное отклонение, деленное на медиану, то есть:

MAD / Медиана

Они сравнивают их и приходят к выводу, что, в общем, второе немного менее изменчиво и, вероятно, лучше для большинства приложений.

Armando
источник