В ходе дискуссии после недавнего вопроса о том, может ли стандартное отклонение превышать среднее значение, один вопрос был поднят кратко, но так и не получил полного ответа. Поэтому я спрашиваю это здесь.
Рассмотрим набор из неотрицательных чисел где для . Не требуется, чтобы x_i был отличным, то есть набор мог быть мультимножеством. Среднее значение и дисперсия набора определяются как \ bar {x} = \ frac {1} {n} \ sum_ {i = 1} ^ n x_i, ~~ \ sigma_x ^ 2 = \ frac {1} {n} \ sum_ {i = 1} ^ n (x_i - \ bar {x}) ^ 2 = \ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) - \ bar {x} ^ 2 и стандартное отклонение \ sigma_x . Обратите внимание, что набор чисел не является выборкой из совокупности, и мы не оцениваем среднее значение или дисперсию совокупности. Тогда возникает вопрос:
Каково максимальное значение , коэффициента вариации, для всех вариантов выбора в интервале ?
Максимальное значение, которое я могу найти для равно которое достигается, когда из имеет значение а оставшийся (выброс) имеет значение , давая
Есть идеи? Я уверен, что этот вопрос изучался ранее в статистической литературе, и поэтому ссылки, если не фактические результаты, будут высоко оценены.
источник
Ответы:
Геометрия обеспечивает понимание, а классические неравенства обеспечивают легкий доступ к строгости.
Геометрическое решение
Из геометрии наименьших квадратов мы знаем, что является ортогональной проекцией вектора данных на линейное подпространство, порожденное вектором констант и что прямо пропорционально (евклидову) расстоянию между и Ограничения неотрицательности являются линейными, а расстояние является выпуклой функцией, поэтому крайности расстояния должны быть достигнуты на краях конуса, определяемых ограничениями. Этот конус является положительным ортантом вx=(x1,x2,…,xn)(1,1,…,1)σxx ˉ x . рx¯=(x¯,x¯,…,x¯) x=(x1,x2,…,xn) (1,1,…,1) σx x x¯. Rn и его ребра являются осями координат, откуда сразу следует, что все, кроме одного из должны быть равны нулю на максимальных расстояниях. Для такого набора данных прямой (простой) расчет показываетσ x / ˉ xxi σx/x¯=n−−√.
Решение, использующее классические неравенства
(Формула для может выглядеть загадочной, пока вы не поймете, что она просто записывает шаги, которые нужно было бы сделать, чтобы алгебраически манипулировать чтобы ее в простую форму, которая находится слева.)f σx/x¯
Легкий путь начинается с неравенства Холдера ,
(Это не требует специального доказательства в этом простом контексте: просто замените один фактор каждого члена на максимальный компонент : очевидно, сумма квадратов не будет уменьшаться. Факторинг из общего члена получаем правую часть неравенства.)x2i=xi×xi max({xi}) max({xi})
Поскольку не являются всеми (что оставило бы неопределенным), деление на квадрат их суммы является действительным и дает эквивалентное неравенствоxi 0 σx/x¯
Поскольку знаменатель не может быть меньше числителя (который сам по себе является лишь одним из терминов в знаменателе), в правой части преобладает значение , которое достигается только тогда, когда все, кроме одного из равны . Откуда1 xi 0
Альтернативный подход
Поскольку неотрицательны и не могут суммироваться до , значения определяют распределение вероятности на . Записывая для суммы , мы распознаемxi 0 p(i)=xi/(x1+x2+…+xn) F {1,2,…,n} s xi
Аксиоматический факт, что никакая вероятность не может превышать подразумевает, что это ожидание также не может превышать , но легко сделать его равным , установив все, кроме одного, из равным и, следовательно, ровно один из отличен от нуля. Вычислите коэффициент вариации, как в последней строке геометрического решения выше.1 1 1 pi 0 xi
источник
Некоторые ссылки, как маленькие свечи на тортах других:
Кацнельсон и Коц (1957) доказали, что до тех пор, пока все , коэффициент вариации не может превышать . Этот результат упоминался ранее Лонгли (1952). Крамер (1946, с.357) показал менее резкий результат, а Кирби (1974) - менее общий результат.xi≥0 n−1−−−−−√
Крамер, H. 1946. Математические методы статистики . Принстон, Нью-Джерси: издательство Принстонского университета.
Katsnelson J. и S. Kotz. 1957. О верхних границах некоторых мер изменчивости. Archiv für Meteorologie, Geophysik und Bioklimatologie , Series B 8: 103–107.
Кирби В. 1974. Алгебраическая ограниченность выборочной статистики. Исследование водных ресурсов 10: 220–222.
Лонгли, RW 1952. Меры изменчивости осадков. Ежемесячный обзор погоды 80: 111–117.
Я наткнулся на эти документы в работе над
Кокс, Нью-Джерси. Пределы асимметрии и эксцесс. Stata Journal 10: 482-495.
в котором обсуждаются в целом сходные оценки асимметрии и эксцесса на основе моментов.
источник
С двумя числами , некоторым и любым :xi≥xj δ>0 μ
Применяя это к неотрицательным точкам данных, это означает, что если все, кроме одного из чисел не равны нулю и, следовательно, не могут быть уменьшены в дальнейшем, можно увеличить дисперсию и стандартное отклонение, увеличив разрыв между любой парой точек данных. сохраняя то же самое среднее, увеличивая тем самым коэффициент вариации. Таким образом, максимальный коэффициент вариации для набора данных, как вы предлагаете: .n n n−1−−−−−√
источник