Существует ли более одной «медианной» формулы?

16

В моей работе, когда люди ссылаются на «среднее» значение набора данных, они обычно ссылаются на среднее арифметическое (то есть «среднее» или «ожидаемое значение»). Если бы я указал среднее геометрическое , люди, вероятно, подумали бы, что я глупый или бесполезный, так как определение «среднего» известно заранее.

Я пытаюсь определить, есть ли несколько определений «медианы» набора данных. Например, одно из определений, предоставленных коллегой для нахождения медианы набора данных с четным числом элементов, будет следующим:

Алгоритм «А»

  • Разделите количество элементов на два, округлите вниз.
  • Это значение является индексом медианы.
  • т.е. для следующего набора медиана будет 5.
  • [4, 5, 6, 7]

Это, кажется, имеет смысл, хотя аспект округления кажется немного произвольным.

Алгоритм 'B'

В любом случае, другой коллега предложил отдельный алгоритм, который был в его учебнике статистики (необходимо получить имя и автора):

  • Разделите количество элементов на 2 и сохраните копии округленных вверх и округленных вниз целых чисел. Назовите их n_loи n_hi.
  • Возьмите среднее арифметическое элементов в n_loи n_hi.
  • т.е. для следующего набора медиана будет (5+6)/2 = 5.5.
  • [4, 5, 6, 7]

Это кажется неправильным, так как медианное значение, 5.5в данном случае, фактически отсутствует в исходном наборе данных. Когда в некотором тестовом коде мы заменили алгоритм «A» на «B», он ужасно сломался (как мы и ожидали).

Вопрос

Существует ли формальное «имя» для этих двух подходов к вычислению медианы набора данных? то есть "медиана" меньше двух "по сравнению с медианой" средние элементы середины элементов и создание новых данных "?

облако
источник
16
Я никогда не видел алгоритм «А», который считается медианой. Не должно быть проблемой, что описательная статистика центральной тенденции данных не относится к самим данным: в конце концов, большинство средств также отсутствует в данных. Более фундаментальным свойством, которое мы хотели бы иметь в медиане, является то, что оно не изменяется при обращении последовательности данных, поскольку упорядочение данных от наименьшего к наибольшему или от наибольшего к наименьшему является произвольным вопросом вкуса. По этой причине большинство авторов определяют медиану, как в алгоритме «B», потому что это, безусловно, самая простая из возможных процедур, инвариантных к порядку.
whuber
3
Алгоритм @whuber 'A' иногда называют низким срединным . Существует также, конечно, соответствующий High-Median. Обычно медиана - это среднее из двух (которое может быть или не быть одним элементом из набора, по которому вычисляется медиана).
user603
8
Хорошее время и место для повторения комментария о том, что два центральных значения в упорядоченной выборке с четным числом наблюдений - например, 3 и 4 в 1, 2, 3, 4, 5, 6 - должны рассматриваться как комедианты (независимо друг от друга С. М. Стиглер, Р. Кенкер и, без сомнения, другие).
Ник Кокс
3
Разве оба алгоритма не пропускают важный этап сортировки данных?
Эмиль
3
Если вам нужно, чтобы ваша медиана всегда была элементом набора данных, вы, возможно, ищете медоид .
Ильмари Каронен

Ответы:

23

TL; DR - я не знаю, какие конкретные имена даны различным оценкам выборочных медиан. Методы оценки выборочной статистики по некоторым данным довольно суетливы, а разные ресурсы дают разные определения.

В Hogg, McKean и Craig во введении к математической статистике авторы дают определение медиан случайных выборок , но только в том случае, если существует нечетное количество выборок! Авторы пишут

NY(N+1)/2

Yяя

N

Алгоритм B обладает тем свойством, что половина данных падает выше значения, а половина данных - ниже значения. В свете определения медианы случайной величины это кажется хорошим.


Независимо от того, нарушает ли конкретный оценщик модульные тесты, это свойство модульных тестов - модульные тесты, написанные для конкретного оценщика, не обязательно будут выполняться при замене другого оценщика. В идеальном случае модульные тесты были выбраны потому, что они отражают критические потребности вашей организации, а не из-за аргумента доктрины над определениями.

Sycorax говорит восстановить Монику
источник
2
(+1) Мы можем также добавить, что (1) Когда значения идут с весами, определение медианы в принципе и на практике должно охватывать это тоже. (До сих пор в ответах неявно все весовые коэффициенты равны, поэтому не имеют значения.) Хотя линейная интерполяция в совокупной сумме весов является самой простой, существуют ситуации, в которых могут иметь смысл другие виды интерполяции. (2) Более строгие определения медианы обычно предназначены для охвата как дискретных, так и непрерывных и гибридных распределений, в том числе где-то с вероятными скачками вероятности.
Ник Кокс
25

Что говорит @Sycorax.

На самом деле, существует удивительно много определений общих квантилей, в частности, также медиан. Hyndman & Fan (1996, The American Statistician ) дают обзор, который, AFAIK, все еще всеобъемлющий. Различные типы не имеют формальных имен. Возможно, вам просто необходимо четко определить, какой тип вы используете. (Часто это не имеет большого значения для наборов данных реалистичных размеров.)

Обратите внимание, что обычно принято иметь значение, которое отсутствует в наборе данных в качестве медианы, например, 5,5 в качестве медианы для (4, 5, 6, 7). Это поведение по умолчанию для R:

> median(4:7)
[1] 5.5

R median()по умолчанию использует тип 7 ​​классификации Hyndman & Fan.

С. Коласса - Восстановить Монику
источник
6
+1 за «Это часто не имеет большого значения для наборов данных реалистичных размеров». Я украду это вместо моего обычного «если это имеет значение для материала, вам, вероятно, понадобится больше данных». :)
Джейсон
1
Если у вас есть бинарная переменная со значениями 0, 1 (скажем) и примерно одинаковым числом 0 и 1 (в среднем близко к 0,5), тогда большой размер выборки не обязательно остановит колебание медианы между 0, 0,5 и 1. Мостеллер и Тьюки ( Анализ данных и регрессия, 1977) приводят строго бимодальные и почти симметричные распределения как случаи, когда медиана может вести себя не особенно хорошо.
Ник Кокс,
3

В madфункции R он использует термины «lo-медиана» для описания вашего алгоритма A, «hi-медиана» вместо описания округления и просто «медиана» для описания вашего алгоритма B (что, как отметили другие, безусловно самое распространенное определение).

Любопытно, что такой median()функции в функции R нет ! (Но R quantile()имеет typeдля точного контроля.)

Даррен Кук
источник