Есть несколько сводных статистических данных. Если вы хотите описать разброс распределения, вы можете использовать, например, стандартное отклонение или коэффициент Джини .
Я знаю, что стандартное отклонение основано на центральной тенденции, то есть отклонении от среднего, а коэффициент Джини является общим измерением дисперсии. Я также знаю, что коэффициент Джини имеет нижнюю и верхнюю границы [0 1], а стандартное отклонение - нет . Эти свойства полезно знать, но какое понимание может дать стандартное отклонение, которое Джини не может и наоборот? Если бы мне пришлось выбирать один из двух вариантов, каковы преимущества использования одного по сравнению с другим, когда дело доходит до информативности и проницательности.
standard-deviation
descriptive-statistics
gini
Olivier_s_j
источник
источник
Ответы:
Две вещи для рассмотрения
Джини не зависит от масштаба, тогда как SD в оригинальных единицах
Предположим, у нас есть мера, ограниченная сверху и снизу. SD принимает максимальное значение, если половина измерений находится на каждой границе, в то время как Джини принимает максимум, если одно находится на одной границе, а все остальные - на другой.
источник
Коэффициент Джини инвариантен к масштабу и ограничен, стандартное отклонение инвариантно к сдвигу и неограничен, поэтому их трудно сравнивать напрямую. Теперь вы можете определить масштабно-инвариантную версию стандартного отклонения путем деления на среднее (коэффициент вариации).
Однако индекс Джини по-прежнему основан на значениях, а второй - на квадрате значений, поэтому можно ожидать, что второй будет более подвержен влиянию выбросов (чрезмерно низкие или высокие значения). Это можно найти в показателях неравенства доходов , F De Maio, 2007:
Таким образом, коэффициент вариации является менее устойчивым и все еще неограниченным. Чтобы сделать следующий шаг, вы можете удалить среднее и вместо этого разделить на абсолютное отклонение ( ). С точностью до множителя вы соотношение норм , которое может быть ограничено, поскольку для точечного вектора .ℓ 1 / ℓ 2 N ℓ 2 ( x ) ≤ ℓ 1 ( x ) ≤ √ℓ1(x−m)=∑|xn−m| ℓ1/ℓ2 N ℓ2(x)≤ℓ1(x)≤N−−√ℓ2(x)
Теперь у вас есть, с индексом Джини и отношением , две интересные меры разреженности распределения: масштабно-инвариантный и ограниченный.ℓ1/ℓ2
Они сравниваются в разделе «Сравнение показателей разреженности», 2009 год. При сравнении с показателями естественной разреженности («Робин Гуд», «Масштабирование», «Восходящий прилив», «Клонирование», «Билл Гейтс» и «Младенцы») индекс Джини является лучшим. Но его форма затрудняет использование в качестве функции потерь, и в этом контексте можно использовать регуляризованные версииℓ1/ℓ2 .
Поэтому, если вы не хотите охарактеризовать распределение почти гауссово, если вы хотите измерить разреженность, используйте индекс Джини, если вы хотите повысить разреженность среди разных моделей, вы можете попробовать такое соотношение норм.
Дополнительная лекция: Среднее различие Джини: превосходная мера изменчивости для ненормальных распределений , Шломо Ицхаки, 2003, чье резюме может показаться интересным:
источник
Стандартное отклонение имеет шкалу (скажем, ° K, метры, мм рт.ст., ...). Обычно это влияет на наше суждение о его величине. Поэтому мы склонны предпочитать коэффициент вариации или даже лучше (на конечных выборках) стандартную ошибку.
Коэффициент Джини построен на (безмасштабных) процентных значениях и, таким образом, не имеет шкалы в своей собственной единице (например, число Маха). Используйте коэффициент Джини, если хотите сравнить равенство долей с чем-то общим (доли 100%). Обратите внимание, что для этого приложения также может быть использовано стандартное отклонение, поэтому я думаю, что ваш вопрос для сравнения преимуществ и недостатков относится только к этому виду применения. В этом случае стандартное отклонение также будет ограничено до . Оба индикатора будут зависеть от количества (неотрицательных) акций, но в противоположном направлении: Джини увеличивается с увеличением числа, стандартное отклонение уменьшается.[0,1]
источник