В левом перекосе данных, какова связь между средним и медианным?

12

Я думаю, что среднее значение означает.

Это тот случай?

Кунджан Кшетри
источник
2
Какой это открытый курс MOOC? Какие материалы курса предполагают, что ответ должен быть?
Glen_b
1
class.stanford.edu/courses/Medicine/HRP258/… . Курс окончен.
Кунджан Кшетри
1
Спасибо, по крайней мере, это какой-то контекст, хотя все, что осталось, это еженедельные чтения, которые не проливают много света на эту проблему. Мне интересно, что курс сказал по этой теме.
Glen_b

Ответы:

16

Это нетривиальный вопрос (конечно, не такой тривиальный, как думают люди, задающие вопрос).

Сложность в конечном итоге вызвана тем фактом, что мы на самом деле не знаем, что мы подразумеваем под «асимметричностью» - в большинстве случаев это очевидно, но иногда это действительно не так. Учитывая сложность определения того, что мы подразумеваем под «местоположением» и «распространением» в нетривиальных случаях (например, среднее значение не всегда то, что мы имеем в виду, когда говорим о местоположении), неудивительно, что более тонкий Понятие асимметрии, по крайней мере, скользкое. Таким образом, это заставляет нас попробовать различные алгебраические определения того, что мы имеем в виду, и они не всегда согласуются друг с другом.

1) Если вы измеряете асимметрию по второму коэффициенту асимметрии Пирсона , то среднее значение ( ) будет меньше медианы ( - т.е. в этом случае вы используете его в обратном направлении).μμμ

Вторая асимметрия Пирсона (совокупности) равна и будет отрицательной ("наклон влево") при .μ < μ

3(μμ)σ,
μ<μ

Примеры версий этой статистики работают аналогично.

Причина необходимой связи между средним значением и медианой в этом случае заключается в том, что именно так определяется мера асимметрии.

Вот наклонная плотность влево (как по второй мере Пирсона, так и по более общей мере в (2) ниже):

введите описание изображения здесь

Медиана отмечена в нижнем поле зеленым, а среднее - красным.

Поэтому я ожидаю, что ответ, который они хотят, чтобы вы дали, состоял в том, что среднее значение меньше среднего. Это обычно имеет место с типами дистрибутивов, которым мы склонны давать имена.

(Но читайте дальше, и вы увидите, почему это не совсем правильно в качестве общего утверждения.)


2) Если вы измеряете его более обычным стандартизированным третьим моментом , то это часто, но далеко не всегда, случай, когда среднее значение будет меньше, чем медиана.

То есть можно построить примеры, где верно обратное или где одна мера асимметрии равна нулю, а другая ненулевая.

То есть, нет никакой необходимой связи между местоположением среднего значения, медианы и асимметрии момента.

Рассмотрим, например, следующую выборку (тот же пример можно построить как дискретное распределение вероятностей):

  2.7 15.0 15.0 15.0 30.0 30.0

mean: 17.95
median: 15

Тем не менее, коэффициент асимметрии (Фишер, третий момент) отрицателен (т. Е. По его светам у нас есть данные о левом перекосе), поскольку сумма кубов отклонений от среднего является отрицательной.

Так что в этом случае левостороннее, но означает> медиана.

(С другой стороны, если вы измените 2.7 в приведенном выше примере на 3, то у вас есть пример, где асимметрия моментов равна нулю, но среднее значение превышает медиану. Если вы установите значение 3.3, то асимметрия моментов будет положительной и среднее значение превышает медиану, то есть, наконец, в «ожидаемом» направлении.)

Если вы используете первую асимметрию Пирсона вместо одного из приведенных выше определений, у вас возникнет аналогичная проблема в этом случае - направление асимметрии не определяет связь между средним значением и медианой в целом.


Изменить: в ответ на вопрос в комментариях - пример, где среднее значение и медиана равны, но асимметрия момента отрицательна. Рассмотрим следующие данные (как и раньше, это также считается примером для дискретной популяции; рассмотрите возможность написания чисел на гранях кубика).

 1  5  6  6  8 10

среднее значение и медиана равны 6, но сумма кубов отклонений от среднего отрицательна, поэтому асимметрия третьего момента отрицательна.

Glen_b - Восстановить Монику
источник
1
@Peter Извините за медленный ответ, я был занят созданием именно таких примеров и не видел вашего вопроса.
Glen_b
2
Я видел много определений в учебниках, и никто не упомянул об этом. Здорово.
Питер Флом - Восстановить Монику
6
@Peter К сожалению, многие элементарные учебники просто повторяют неверную информацию из других учебников, фактически не проводя никаких реальных расследований, и поэтому распространяются основные заблуждения. Как видите, контрпримеры относительно легко построить (я просто делаю их вручную по мере необходимости). Кендалл и Стюарт (« Продвинутая теория статистики», том I - не позволяйте названию вас оттолкнуть, он вполне читабелен), по крайней мере, третье и четвертое издания имеют хорошую информацию. Более поздние издания - Стюарт и Орд. Я действительно писал об этой проблеме в резюме несколько раз.
Glen_b
4
Биномы и показывают, что среднее значение медиана полностью согласуется с асимметрией. Суть этого примера в том, что никто не может убедительно отклонить его как неясное или патологическое. (5k)0.8k0.25k=(5k)0.2k0.85k=
Ник Кокс
1
@ Ник Да, биномы с целочисленным средним значением - отличные примеры.
Glen_b
5

Нет. Левый перекос данных имеет длинный хвост слева (нижний конец), поэтому среднее значение обычно будет меньше медианы. (Но см. Ответ @Glen_b для исключения). Случайно, я думаю, что данные, которые «выглядят» перекошенными слева, будут иметь значение меньше, чем медиана.

Правосторонние данные более распространены; например, доход. Там среднее больше, чем медиана.

Код R

set.seed(123)  #set random seed
normdata <- rnorm(1000) #Normal data, skew = 0
extleft <- c(rep(-10, 5), rep(-20, 5)) #Some data to make skew left
alldata <- c(normdata,extleft)

library(moments)
skewness(alldata) #-6.77
mean(alldata) #-0.13
median(alldata) #-0.001
Питер Флом - Восстановить Монику
источник
Может ли среднее значение быть равным медиане?
Кунджан Кшетри
unj2 Я добавил пример к своему ответу, где асимметрия третьего момента отрицательная, но средняя = медиана.
Glen_b