Максимальное значение коэффициента вариации для ограниченного набора данных

17

В ходе дискуссии после недавнего вопроса о том, может ли стандартное отклонение превышать среднее значение, один вопрос был поднят кратко, но так и не получил полного ответа. Поэтому я спрашиваю это здесь.

Рассмотрим набор из неотрицательных чисел где для . Не требуется, чтобы x_i был отличным, то есть набор мог быть мультимножеством. Среднее значение и дисперсия набора определяются как \ bar {x} = \ frac {1} {n} \ sum_ {i = 1} ^ n x_i, ~~ \ sigma_x ^ 2 = \ frac {1} {n} \ sum_ {i = 1} ^ n (x_i - \ bar {x}) ^ 2 = \ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) - \ bar {x} ^ 2 и стандартное отклонение \ sigma_x . Обратите внимание, что набор чисел не является выборкой из совокупности, и мы не оцениваем среднее значение или дисперсию совокупности. Тогда возникает вопрос:nxi0xic1inxi

x¯=1ni=1nxi,  σx2=1ni=1n(xix¯)2=(1ni=1nxi2)x¯2
σx

Каково максимальное значение σxx¯ , коэффициента вариации, для всех вариантов выбора xi в интервале [0,c] ?

Максимальное значение, которое я могу найти для σxx¯ равно n1 которое достигается, когда n1 из xi имеет значение 0 а оставшийся (выброс) xi имеет значение c , давая

x¯=cn,  1nxi2=c2nσx=c2nc2n2=cnn1.
Но это вообще не зависит от c , и мне интересно , можно ли достичь больших значений, возможно, зависящих как от n и от c .

Есть идеи? Я уверен, что этот вопрос изучался ранее в статистической литературе, и поэтому ссылки, если не фактические результаты, будут высоко оценены.

Дилип Сарватэ
источник
Я думаю, что вы правы в том, что это максимально возможное значение, и я также удивлен, что не имеет значения. Здорово. c
Питер Флом - Восстановить Монику
7
c не должен влиять на результат, поскольку не изменяется, если все значения умножены на любую положительную константу . σxx¯k
Генри

Ответы:

15

Геометрия обеспечивает понимание, а классические неравенства обеспечивают легкий доступ к строгости.

Геометрическое решение

Из геометрии наименьших квадратов мы знаем, что является ортогональной проекцией вектора данных на линейное подпространство, порожденное вектором констант и что прямо пропорционально (евклидову) расстоянию между и Ограничения неотрицательности являются линейными, а расстояние является выпуклой функцией, поэтому крайности расстояния должны быть достигнуты на краях конуса, определяемых ограничениями. Этот конус является положительным ортантом вx=(x1,x2,,xn)(1,1,,1)σxx ˉ x . рx¯=(x¯,x¯,,x¯)x=(x1,x2,,xn)(1,1,,1)σxxx¯.Rnи его ребра являются осями координат, откуда сразу следует, что все, кроме одного из должны быть равны нулю на максимальных расстояниях. Для такого набора данных прямой (простой) расчет показываетσ x / ˉ xxiσx/x¯=n.

Решение, использующее классические неравенства

σx/x¯ оптимизируется одновременно с любым его монотонным преобразованием. В свете этого давайте максимально

x12+x22++xn2(x1+x2++xn)2=1n(n1n(σxx¯)2+1)=f(σxx¯).

(Формула для может выглядеть загадочной, пока вы не поймете, что она просто записывает шаги, которые нужно было бы сделать, чтобы алгебраически манипулировать чтобы ее в простую форму, которая находится слева.)fσx/x¯

Легкий путь начинается с неравенства Холдера ,

x12+x22++xn2(x1+x2++xn)max({xi}).

(Это не требует специального доказательства в этом простом контексте: просто замените один фактор каждого члена на максимальный компонент : очевидно, сумма квадратов не будет уменьшаться. Факторинг из общего члена получаем правую часть неравенства.)xi2=xi×ximax({xi})max({xi})

Поскольку не являются всеми (что оставило бы неопределенным), деление на квадрат их суммы является действительным и дает эквивалентное неравенствоxi0σx/x¯

x12+x22++xn2(x1+x2++xn)2max({xi})x1+x2++xn.

Поскольку знаменатель не может быть меньше числителя (который сам по себе является лишь одним из терминов в знаменателе), в правой части преобладает значение , которое достигается только тогда, когда все, кроме одного из равны . Откуда1xi0

σxx¯f1(1)=(1×(n1))nn1=n.

Альтернативный подход

Поскольку неотрицательны и не могут суммироваться до , значения определяют распределение вероятности на . Записывая для суммы , мы распознаемxi0p(i)=xi/(x1+x2++xn)F{1,2,,n}sxi

x12+x22++xn2(x1+x2++xn)2=x12+x22++xn2s2=(x1s)(x1s)+(x2s)(x2s)++(xns)(xns)=p1p1+p2p2++pnpn=EF[p].

Аксиоматический факт, что никакая вероятность не может превышать подразумевает, что это ожидание также не может превышать , но легко сделать его равным , установив все, кроме одного, из равным и, следовательно, ровно один из отличен от нуля. Вычислите коэффициент вариации, как в последней строке геометрического решения выше.111pi0xi

Whuber
источник
Спасибо за подробный ответ, из которого я многому научился! Я предполагаю, что разница между в вашем ответе и которую я получил (и Генри подтвердил), связана с тем, что вы используете как определение пока я использовалnn1
σx=1n1i=1n(xix¯)2
σx
σx=1ni=1n(xix¯)2?
Дилип Сарватэ
1
Да, Дилип, все верно. Извините за несоответствие с вопросом; Я должен был сначала проверить, и я должен был определить (что я собирался сделать, но забыл). σx
whuber
10

Некоторые ссылки, как маленькие свечи на тортах других:

Кацнельсон и Коц (1957) доказали, что до тех пор, пока все , коэффициент вариации не может превышать . Этот результат упоминался ранее Лонгли (1952). Крамер (1946, с.357) показал менее резкий результат, а Кирби (1974) - менее общий результат.xi0n1

Крамер, H. 1946. Математические методы статистики . Принстон, Нью-Джерси: издательство Принстонского университета.

Katsnelson J. и S. Kotz. 1957. О верхних границах некоторых мер изменчивости. Archiv für Meteorologie, Geophysik und Bioklimatologie , Series B 8: 103–107.

Кирби В. 1974. Алгебраическая ограниченность выборочной статистики. Исследование водных ресурсов 10: 220–222.

Лонгли, RW 1952. Меры изменчивости осадков. Ежемесячный обзор погоды 80: 111–117.

Я наткнулся на эти документы в работе над

Кокс, Нью-Джерси. Пределы асимметрии и эксцесс. Stata Journal 10: 482-495.

в котором обсуждаются в целом сходные оценки асимметрии и эксцесса на основе моментов.

Ник Кокс
источник
8

С двумя числами , некоторым и любым :xixjδ>0μ

(xi+δμ)2+(xjδμ)2(xiμ)2(xjμ)2=2δ(xixj+δ)>0.

Применяя это к неотрицательным точкам данных, это означает, что если все, кроме одного из чисел не равны нулю и, следовательно, не могут быть уменьшены в дальнейшем, можно увеличить дисперсию и стандартное отклонение, увеличив разрыв между любой парой точек данных. сохраняя то же самое среднее, увеличивая тем самым коэффициент вариации. Таким образом, максимальный коэффициент вариации для набора данных, как вы предлагаете: .nnn1

c не должен влиять на результат, так как не изменяется, если все значения умножены на любую положительную константу (как я уже сказал в своем комментарии).σxx¯k

Генри
источник