В моей работе, когда люди ссылаются на «среднее» значение набора данных, они обычно ссылаются на среднее арифметическое (то есть «среднее» или «ожидаемое значение»). Если бы я указал среднее геометрическое , люди, вероятно, подумали бы, что я глупый или бесполезный, так как определение «среднего» известно заранее.
Я пытаюсь определить, есть ли несколько определений «медианы» набора данных. Например, одно из определений, предоставленных коллегой для нахождения медианы набора данных с четным числом элементов, будет следующим:
Алгоритм «А»
- Разделите количество элементов на два, округлите вниз.
- Это значение является индексом медианы.
- т.е. для следующего набора медиана будет
5
. [4, 5, 6, 7]
Это, кажется, имеет смысл, хотя аспект округления кажется немного произвольным.
Алгоритм 'B'
В любом случае, другой коллега предложил отдельный алгоритм, который был в его учебнике статистики (необходимо получить имя и автора):
- Разделите количество элементов на 2 и сохраните копии округленных вверх и округленных вниз целых чисел. Назовите их
n_lo
иn_hi
. - Возьмите среднее арифметическое элементов в
n_lo
иn_hi
. - т.е. для следующего набора медиана будет
(5+6)/2 = 5.5
. [4, 5, 6, 7]
Это кажется неправильным, так как медианное значение, 5.5
в данном случае, фактически отсутствует в исходном наборе данных. Когда в некотором тестовом коде мы заменили алгоритм «A» на «B», он ужасно сломался (как мы и ожидали).
Вопрос
Существует ли формальное «имя» для этих двух подходов к вычислению медианы набора данных? то есть "медиана" меньше двух "по сравнению с медианой" средние элементы середины элементов и создание новых данных "?
источник
Ответы:
TL; DR - я не знаю, какие конкретные имена даны различным оценкам выборочных медиан. Методы оценки выборочной статистики по некоторым данным довольно суетливы, а разные ресурсы дают разные определения.
В Hogg, McKean и Craig во введении к математической статистике авторы дают определение медиан случайных выборок , но только в том случае, если существует нечетное количество выборок! Авторы пишут
Алгоритм B обладает тем свойством, что половина данных падает выше значения, а половина данных - ниже значения. В свете определения медианы случайной величины это кажется хорошим.
Независимо от того, нарушает ли конкретный оценщик модульные тесты, это свойство модульных тестов - модульные тесты, написанные для конкретного оценщика, не обязательно будут выполняться при замене другого оценщика. В идеальном случае модульные тесты были выбраны потому, что они отражают критические потребности вашей организации, а не из-за аргумента доктрины над определениями.
источник
Что говорит @Sycorax.
На самом деле, существует удивительно много определений общих квантилей, в частности, также медиан. Hyndman & Fan (1996, The American Statistician ) дают обзор, который, AFAIK, все еще всеобъемлющий. Различные типы не имеют формальных имен. Возможно, вам просто необходимо четко определить, какой тип вы используете. (Часто это не имеет большого значения для наборов данных реалистичных размеров.)
Обратите внимание, что обычно принято иметь значение, которое отсутствует в наборе данных в качестве медианы, например, 5,5 в качестве медианы для (4, 5, 6, 7). Это поведение по умолчанию для R:
R
median()
по умолчанию использует тип 7 классификации Hyndman & Fan.источник
В
mad
функции R он использует термины «lo-медиана» для описания вашего алгоритма A, «hi-медиана» вместо описания округления и просто «медиана» для описания вашего алгоритма B (что, как отметили другие, безусловно самое распространенное определение).Любопытно, что такой
median()
функции в функции R нет ! (Но Rquantile()
имеетtype
для точного контроля.)источник