Почему тот факт, что 1 медиана ниже, чем другой медианы, не означает, что большинство в группе 1 меньше, чем большинство в группе 2?

9

Я полагал, что приведенные ниже прямоугольники могут быть интерпретированы как «большинство мужчин быстрее, чем большинство женщин» (в этом наборе данных), главным образом потому, что среднее время мужчин было меньше среднего времени женщин. Но курс EDX на R- и статистика викторине сказал мне , что это неправильно. Пожалуйста, помогите мне понять, почему моя интуиция неверна.

Вот вопрос:

Давайте рассмотрим случайную выборку финишеров с марафона в Нью-Йорке 2002 года. Этот набор данных можно найти в пакете UsingR. Загрузите библиотеку, а затем загрузите набор данных nym.2002.

library(dplyr)
data(nym.2002, package="UsingR")

Используйте коробочные графики и гистограммы, чтобы сравнить конечное время мужчин и женщин. Что из следующего лучше всего описывает разницу?

  1. Мужчины и женщины имеют одинаковое распределение.
  2. Большинство мужчин быстрее, чем большинство женщин.
  3. Мужчины и женщины имеют схожие правосторонние распределения с первым, сдвинутым на 20 минут влево.
  4. Оба распределения обычно распределяются с разницей в среднем около 30 минут.

Вот марафон Нью-Йорка для мужчин и женщин в виде квантилей, гистограмм и коробочных графиков:

# Men's time quantile
      0%      25%      50%      75%     100% 
147.3333 226.1333 256.0167 290.6375 508.0833

# Women's time quantile
      0%      25%      50%      75%     100% 
175.5333 250.8208 277.7250 309.4625 566.7833

Мужские и женские времена - гистограмма

Мужские и женские времена - boxplot

тмин
источник
Для визуальной проверки того же распределения ваши гистограммы должны использовать один и тот же домен x и столбцы, а на оси y должна отображаться относительная частота. Размер полосы бункера выиграл бы от более высокой степени детализации, например, 25 или 50 минут. Кроме того, на боксплотах и ​​гистограммах нарисуйте медиану (уже в боксплоте), среднее значение и режим.
g3o2
По вопросу из заголовка: рассмотрим равномерное распределение на и . Медиана последнего больше, но с учетом случайной реализации от каждого, вероятность того, что секунда будет больше, будет такой же, как и она меньше ( ). Таким образом, если вы определяете «большинство больше» с помощью «заданных двух случайных выборок X и Y, по одной от каждой, », то соотношение между медианами X и Y мало о чем говорит. { 2 } 0,5 P ( X > Y ) > 0,5{0,3}{2}0.5P(X>Y)>0.5
AlexR

Ответы:

7

Я думаю, что причина, по которой вы были отмечены как неправильные, заключается не столько в том, что ответ, который вы дали на вопрос с несколькими выборами, был неправильным, а в том, что вариант 3 «Мужчины и женщины имеют схожие распределения с правым наклоном с первым, смещенным на 20 минут влево» было бы лучшим выбором, поскольку он более информативен на основе предоставленной информации.

Роберт Джонс
источник
Я согласен с этим объяснением. Кроме того, «самое быстрое, чем большинство», так неоднозначно. Несмотря на ответ, данный @glen_b, я бы ожидал гораздо большего разделения на графиках для этого типа языка. Как, например, «все 75% мужчин быстрее, чем все 75% женщин», что, я думаю, привело бы к тому, что 75-й процентиль мужского времени был ниже, чем 25-го процентиля женского. Но язык неоднозначен.
Sal Mangiafico
1
Кроме того, это сводится к принципу сдачи нескольких тестов: всегда выбирайте лучший ответ.
Sal Mangiafico
Это имеет смысл; дело не в том, что другой выбор был НЕПРАВИЛЬНЫМ, но в том, что правильный выбор («Мужчины и женщины имеют схожие распределения с правым перекосом с первым, смещенным влево на 20 минут») был более верным. Однако я не совсем вижу 20-минутный сдвиг в гистограммах; для меня это больше похоже на 50-минутную смену. Поскольку у меня было два шанса, я правильно понял вопрос, FWIW :-).
тмин
@cumin: Я не уверен, что это правильно на самом деле. «Большинство мужчин быстрее, чем большинство женщин», неясно, что означает «большинство» - я не верю, что когда-либо видел строгое определение, и интуитивно оно обычно значительно больше 50% (возможно, 70% +?) , Если бы они сказали «большинство», то, возможно, это было бы яснее.
user541686
9

Вот самый маленький контрпример, который я смог найти:

1,4,10;  Б 0,6,9

  • A ( [1, 4, 10])и B ( [0, 6, 9]) имеют одинаковое среднее значение ( 5)

  • B имеет большую медиану ( 6), чем A ( 4)

  • Существует вероятность 5/9, что случайный элемент A больше, чем случайный элемент B.

Вот еще один пример с 4 элементами:

А 1,1,3,10;  Б 0,0,6,9

Эрик Думинил
источник
7

«Большинство мужчин быстрее, чем большинство женщин», возможно, немного двусмысленно, но я обычно интерпретирую намерение таково, что если мы посмотрим на случайные парировки, большую часть времени мужчина будет быстрее - то есть для случайных (где - «время для мужчины» и т. Д.). i,jMiiP(Mi<Fj)>12i,jMii

Конечно, возможны и другие толкования фразы (в конце концов, это и есть двусмысленность), и некоторые из этих других возможностей могут соответствовать вашим рассуждениям.

[У нас также есть вопрос о том, говорим ли мы об образцах или группах населения ... «большинство мужчин [...] большинство женщин», кажется, является популяционным заявлением (о группе потенциальных времен), но мы наблюдали только времена что мы, кажется, рассматриваем как образец, поэтому мы должны быть осторожны с тем, насколько широко мы заявляем.]

Обратите внимание, что не подразумевается . Они могут идти в противоположных направлениях.˜ M < ˜ FP(Mi<Fj)>12M~<F~

[Я не говорю, что вы ошибаетесь, думая, что доля случайных пар MF, где мужчина был быстрее, чем женщина, составляет более половины - вы почти наверняка правы. Я просто говорю, что вы не можете сказать это, сравнивая медианы. Вы также не можете сказать это, посмотрев на долю в каждом образце выше или ниже медианы другого образца. Вы должны сделать другое сравнение.]

То есть, хотя средний мужчина может быть быстрее, чем средняя женщина, можно иметь выборку времен (или, если на то пошло, постоянное распределение), когда вероятность того, что случайный мужчина быстрее случайной женщины, равна меньше чем . В больших выборках каждое из двух противоположных показаний может быть значительным.12


Пример:

Набор данных A:

 1.58  2.10 16.64 17.34 18.74 19.90  1.53  2.78 16.48 17.53 18.57 19.05
 1.64  2.01 16.79 17.10 18.14 19.70  1.25  2.73 16.19 17.76 18.82 19.08
 1.42  2.56 16.73 17.01 18.86 19.98

Набор данных B:

 3.35  4.62  5.03 20.97 21.25 22.92  3.12  4.83  5.29 20.82 21.64 22.06
 3.39  4.67  5.34 20.52 21.10 22.29  3.38  4.96  5.70 20.45 21.67 22.89
 3.44  4.13  6.00 20.85 21.82 22.05

Набор данных C:

 6.63  7.92  8.15  9.97 23.34 24.70  6.40  7.54  8.24  9.37 23.33 24.26
 6.18  7.74  8.63  9.62 23.07 24.80  6.54  7.37  8.37  9.09 23.22 24.16
 6.57  7.58  8.81  9.08 23.43 24.45

(Данные здесь , но используются там для другой цели - насколько я помню, я сам их сгенерировал)

Обратите внимание, что доля A <B составляет 2/3, доля A <C составляет 5/9, а доля B <C составляет 2/3. Как A против B, так и B против C значимы на уровне 5%, но мы можем достичь любого уровня значимости, просто добавив достаточное количество копий образцов. Мы можем даже избежать связей, дублируя выборки, но добавляя достаточно крошечный джиттер (достаточно меньший, чем наименьший зазор между точками)

Выборочные медианы идут в другом направлении: медиана (A)> медиана (B)> медиана (C)

Опять же, мы могли бы добиться значимости для некоторого сравнения медиан - до любого уровня значимости - повторяя выборки.

Полосная диаграмма образцов A, B и C с медианами, отмеченными значком P (A <B) в противоположном направлении к медианам и т. Д.

Чтобы связать это с настоящей проблемой, представьте, что А - это «женские времена», а В - «мужские времена». Тогда среднее время мужчин быстрее, но случайно выбранный мужчина в 2/3 времени будет медленнее, чем случайно выбранная женщина.

Взяв наш пример из образцов A и C, мы можем сгенерировать больший набор данных (в R) следующим образом:

n <- 300
F <- c(runif(n/3,0,5),runif(n-n/3,15,20))
M <- c(runif(n-n/3,7.5,12.5),runif(n/3,22.5,27.5))

Медиана F будет около 16,25, а медиана M будет около 11,25, но доля случаев, когда F <M, будет 5/9.

[Если бы мы заменили n / 3 биномиальной переменной с параметрами и мы бы выборку из популяции, где медиана распределения F равна 16.25, а медиана распределения M - 11.25. Между тем в этой популяции вероятность того, что F <M снова будет 5/9.]1n13

Также обратите внимание, что и а (на значительном расстоянии). P(M>med(F))=2P(F<med(M))=23 мед(М)<мед(F)P(M>med(F))=23med(M)<med(F)

Glen_b - Восстановить Монику
источник
Я могу видеть, как средства могут идти в противоположных направлениях, но я признаю, что мои интуиции здесь соответствуют ОП. Я не вижу, как медианы могут (кроме вопроса об ошибке выборки).
gung - Восстановить Монику
@ Gung Я включил пример. Я люблю прокалывать мои первоначальные интуиции таким образом - находя им контрпримеры. Если я найду больше (я думаю, что у меня где-то есть), я постараюсь упомянуть их.
Glen_b
Бокс-поле в вопросе о происхождении показывает, что около 60-65% (по глазному яблоку) мужчин имеют время меньше, чем среднее время для женщин (т.е. меньше, чем время для 50% женщин). Это та часть, которую я хотел бы объяснить.
тмин
@ Cumin в моих образцах A и C выше, 2/3 C меньше, чем медиана для A (большинство C быстрее, чем медиана A), в то время как для случайных , составляет около 56% ( большую часть времени случайный A бьет случайный C). [Я не думаю, что ваш вывод на самом деле неверен в отношении ваших данных, просто одной этой информации недостаточно, чтобы установить ее.] - В конце своего поста я внес небольшое изменение по поводу этой конкретной информации. сравнение. Я думаю, что было бы очень трудно сопоставить детали в ваших гистограммах и диаграммах одновременно и получить вид разворота, который я построилi jP(Ai<Cj)ij
Glen_b
3
Я бы интерпретировал фразу «большинство мужчин быстрее, чем большинство женщин», как «по крайней мере, 50% мужчин быстрее, чем, по крайней мере, 50% женщин». Другими словами: учитывая, что мужчина Х имеет смысл спросить, быстрее ли Х, чем 50% женщин. Для меня в иске говорится, что по крайней мере 50% мужчин имеют это свойство. Это (я думаю) ИСТИННО, если средний мужчина быстрее, чем средняя женщина, поскольку 50% мужчин будут быстрее, чем средний мужчина, который быстрее, чем средняя женщина, которая быстрее, чем 50% женщин. (Но обратите внимание, что это охватывает только 25% пар женщина-мужчина, что, я думаю, объясняет ваш замечательный пример.)
mathmandan
3

Следующие цифры взяты из этого поста в блоге , который иллюстрирует важное практическое применение этих идей.

Стандартизация предоставляет мощное устройство для сравнения двух дистрибутивов. На следующих 3 рисунках сравниваются рост 130-месячных мальчиков и девочек из Национальной программы по измерению детей в Англии (NCMP). (Это был модальный возраст в этом наборе данных; я выбрал его просто, чтобы получить наибольшее количество данных и, следовательно, самые гладкие графики в пределах одной возрастной когорты.)

Рисунок 1: Рост мальчиков и девочек в возрасте 130 месяцев, из Национальной программы по измерению детей в Англии (NCMP)

Рисунок 1: Рост мальчиков и девочек в возрасте 130 месяцев, из Национальной программы по измерению детей в Англии (NCMP)

Рисунок 2: Процент роста для мальчиков и девочек в возрасте 130 месяцев.  Источник: английский NCMP

Рисунок 2: Процент роста для мальчиков и девочек в возрасте 130 месяцев. Источник: английский NCMP

Рисунок 3: Распределение роста у девочек в возрасте 130 месяцев относительно мальчиков того же возраста.

Рисунок 3: Распределение роста у девочек в возрасте 130 месяцев относительно мальчиков того же возраста.

На последнем из этих рисунков сравнение роста было стандартизировано в соответствии с ростом мальчиков. Таким образом, читая вдоль пунктирных серых линий на рисунке 3, вы можете сделать такие заявления, как:

  • Средний рост (т. Е. 50-й процентиль) для мальчиков составляет примерно 45-й процентиль для девочек. Таким образом, 100% - 45% = 55% девочек были выше среднего мальчика.
  • Рост верхней квартили (75-й процентиль) для девочек достигает верхнего квинтиля (80-й процентиль) для мальчиков. Так, среди детей в возрасте 130 мес девочка, которая выше 3 из 4 девочек, также выше 4 из 5 мальчиков.

Одна точка возможного замешательства в этом сюжете заслуживает упоминания. Хотя линия 45 ° мальчиков на графике «выше», чем пурпурная кривая девочек, это наблюдение, тем не менее, соответствует общеизвестному факту, что в этом возрасте (это шестиклассники), девочки, как правило, выше мальчиков , Обратите внимание, что эта высота правильно отражена в том факте, что пурпурная кривая смещена вправо относительно синей линии.

(0,0)(1,1)

Ваш первоначальный вопрос теперь можно переформулировать в геометрических терминах, как вопрос о том, можете ли вы нарисовать пурпурную кривую на рис. 3, чтобы одновременно достичь (а) постулированного отношения между медианами и (б) слегка неуловимого отношения, которое @Glen_b выяснил (правильно, я считаю) в своем ответе. Интересно, могут ли распределительные разрывы (точечные массы в плотностях) привести к «патологическому» случаю? Я предполагаю, что любой такой патологический случай будет «исключением, подтверждающим правило».


xxимеет это свойство. На этот счет ответ на вопрос викторины будет да .

С другой стороны, если фактическое намерение «большинство» было «> 50%», можно было бы ожидать, что будет использована более точная фраза «большинство». Если кто-то говорит мне, что что-то «вероятно» произойдет, я думаю, что субъективная вероятность 60% или более намекается на. Точно так же «большинство» для меня означает что-то вроде 70–80%. Очевидно, что из приведенного выше графика, если «большинство» принимается за критерий, более строгий, чем 52,5%, то нельзя сказать, что «большинство девочек [имеют свойство, которое они] выше, чем большинство мальчиков». Интересно, было ли частью логического обоснования вопроса о викторине стимулирование изучения слов, связанных с числовыми понятиями? (Если вы думаете, что все это немного глупо, рассмотрите эти графики, показывающий, как люди склонны интерпретировать разные вероятностные слова и фразы.) Возможно, целью было также подчеркнуть то, что в распределениях реального мира присутствует много вариаций, и что единственная статистика (медиана, среднее значение, что-есть- Вы) будете редко поддерживать широкие, широкие заявления.

Дэвид С. Норрис
источник