Раздел 1.7.2 Обнаружения Статистики Используя R Энди Филдсом и др., Перечисляя достоинства среднего значения по отношению к медиане, утверждает:
... среднее значение стабильно в разных выборках.
Это после объяснения многих достоинств медианы, например,
... Медиана относительно не зависит от экстремальных показателей на обоих концах распределения ...
Учитывая, что медиана относительно не зависит от экстремальных показателей, я бы подумал, что она будет более стабильной во всех выборках. Поэтому я был озадачен утверждением авторов. Чтобы подтвердить, что я запустил симуляцию - я сгенерировал 1M случайных чисел и 1000 раз выбрал 100 чисел, вычислил среднее значение и медиану каждой выборки, а затем вычислил sd этих выборочных средних и медиан.
nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)
Как видите, средства распределены более плотно, чем медианы.
На прилагаемом изображении красная гистограмма для медиан - как вы можете видеть, она менее высокая и имеет более толстый хвост, что также подтверждает утверждение автора.
Я потрясен этим, хотя! Как медиана, которая является более стабильной, может в конечном итоге варьироваться в зависимости от выборки? Это кажется парадоксальным! Любые идеи будут оценены.
rnorm
наrcauchy
.Ответы:
Медиана максимально устойчива к выбросам, но очень восприимчива к шуму. Если вы вводите небольшое количество шума в каждую точку, она будет вводить медиану без ослабления, пока шум достаточно мал, чтобы не изменить относительный порядок точек. Для среднего это наоборот. Шум усредняется, но один выброс может изменить среднее значение произвольно.
Ваш тест в основном измеряет устойчивость к шуму, но вы можете легко создать тест, в котором медиана работает лучше. Если вы хотите, чтобы оценка была устойчивой к выбросам и шуму, просто отбросьте верхнюю и нижнюю треть и усредните остаток.
источник
Как сказали @whuber и другие, это утверждение в целом неверно. И если вы хотите быть более интуитивным - я не могу идти в ногу с глубокими математическими вундеркиндами здесь - вы можете посмотреть на другие способы, означающие, что медиана стабильна или нет. В этих примерах допустим нечетное количество баллов, чтобы мои описания были последовательными и простыми.
Представьте, что у вас есть разброс точек на числовой линии. Теперь представьте, что вы берете все точки выше середины и увеличиваете их в 10 раз. Медиана не изменилась, среднее значение значительно изменилось. Таким образом, медиана кажется более стабильной.
Теперь представьте, что эти точки довольно распространены. Переместите центральную точку вверх и вниз. Движение на одну единицу изменяет медиану на единицу, но едва сдвигает среднее. Медиана теперь кажется менее стабильной и более чувствительной к небольшим движениям одной точки.
Теперь представьте, что вы берете наивысшую точку и плавно перемещаете ее из самой высокой в самую низкую точку. Среднее также будет плавно двигаться. Но медиана не будет двигаться непрерывно: она вообще не будет двигаться, пока ваша верхняя точка не станет ниже предыдущей медианы, затем она начнет следовать за точкой, пока не опустится ниже следующей точки, затем медиана прилипнет к этой точке и снова не Не двигайтесь, продолжая двигать свою точку вниз. [Отредактировано за комментарий]
Таким образом, различные преобразования ваших точек приводят к тому, что среднее или медианное значение в некотором смысле выглядит менее плавным или стабильным. Здесь математики-хитчеры показали вам дистрибутивы, из которых вы можете выбирать, которые более точно соответствуют вашему эксперименту, но, надеюсь, эта интуиция также поможет.
источник
[1, 3, 5, 7, 9]
. Изначально медиана есть5
. Это будет оставаться медианой до тех пор, пока пятая точка (изначально9
) не опустится ниже5
, после чего медиана будет плавно следовать пятой точке по мере ее уменьшения, пока не достигнет точки3
, в которой медиана останется3
. Таким образом, даже если точка, определяющая медиану, «прыгает» (из третьей точки в пятую точку во вторую точку), действительное значение медианы не имеет скачка / разрыва.Поэтому мы имеем:
источник
Комментарий: просто чтобы повторить вашу симуляцию, используя распределение, для которого SD средних и медианы дают противоположный результат:
В частности,
nums
теперь из распределения Лапласа (также называемого «двойная экспонента»), которое можно смоделировать как разность двух экспоненциальных распределений с одинаковой скоростью (здесь скорость по умолчанию 1). [Возможно, смотрите Википедию о распределениях Лапласа.]Примечание. Еще одна простая возможность, явно упоминаемая в ссылке @ whuber, - Коши, которую можно смоделировать как t-распределение Стьюдента с одной степенью свободы
rt(10^6, 1)
. Однако его хвосты настолько тяжелы, что создать хорошую гистограмму проблематично.источник