Использование медианы для расчета дисперсии

10

У меня есть 1-D случайная величина, которая чрезвычайно искажена. Чтобы нормализовать это распределение, я хочу использовать медиану, а не среднее. у меня такой вопрос: могу ли я вычислить дисперсию распределения, используя медиану в формуле вместо среднего?

т.е. я могу заменить

Var(X)=[(Ximean(X))2]/n

с

Var(X)=[(Ximedian(X))2]/n

Моя причина в том, что, поскольку дисперсия является мерой разброса по центральной тенденции распределения, это не должно быть проблемой, но я пытаюсь подтвердить эту логику.

Рахул Сингх
источник
1
Посредством медианного центрирования ваших переменных и последующего деления на MAD (медианное абсолютное отклонение) вы можете создать медианное стандартизированное распределение.
Майк Хантер
5
Ты можешь сделать это! Но я думаю, что было бы справедливо назвать это крайне нестандартным и предположить, что вам нужна теория и / или симуляции, чтобы поддержать это, а не только ваша интуиция. Я подозреваю, что он будет менее стойким, чем стандартная оценка. Например, в обычном случае с перекосом вправо медиана будет меньше среднего значения, поэтому самые большие квадратичные отклонения (от медианы) будут, следовательно, еще больше! Важным моментом является то, что если дисперсия очень ненадежна, вам, возможно, придется подумать об измерении спреда совсем по-другому, а не о разных версиях дисперсии.
Ник Кокс
1
1
Этот подход по своей сути противоречив, потому что проблемы, которые решаются путем замены среднего значения на медиану, увеличиваются при использовании дисперсии вместо надежной оценки разброса.
whuber

Ответы:

9

Среднее значение минимизирует квадратичную ошибку (или норму L2, см. Здесь или здесь ), поэтому естественным выбором дисперсии для измерения расстояния от среднего значения является использование квадратичной ошибки (см. Здесь, почему мы ее возводим в квадрат) С другой стороны, медиана минимизирует абсолютную ошибку (норма L1), т. Е. Это значение, которое находится в «середине» ваших данных, поэтому абсолютное расстояние от медианы (так называемое медианное абсолютное отклонение или MAD) представляется Лучшая мера степени изменчивости вокруг медианы. Вы можете прочитать больше об этих отношениях в этой теме .

Короче говоря, дисперсия отличается от MAD тем, как они определяют центральную точку ваших данных, и это влияет на то, как мы измеряем изменение точек данных вокруг них. Возведение в квадрат значений приводит к тому, что выбросы оказывают большее влияние на центральную точку (среднее значение), тогда как в случае медианы все точки оказывают одинаковое влияние на нее, поэтому абсолютное расстояние кажется более подходящим.

Это можно показать также с помощью простого моделирования. Если вы сравните значения квадратов расстояний от среднего значения и медианы, то общий квадрат расстояний почти всегда будет меньше среднего значения, чем медианы. С другой стороны, полное абсолютное расстояние меньше от медианы, чем от среднего. Код R для проведения моделирования размещен ниже.

sqtest  <- function(x) sum((x-mean(x))^2)  < sum((x-median(x))^2)
abstest <- function(x) sum(abs(x-mean(x))) > sum(abs(x-median(x)))

mean(replicate(1000, sqtest(rnorm(1000))))
mean(replicate(1000, abstest(rnorm(1000))))

mean(replicate(1000, sqtest(rexp(1000))))
mean(replicate(1000, abstest(rexp(1000))))

mean(replicate(1000, sqtest(runif(1000))))
mean(replicate(1000, abstest(runif(1000))))

В случае использования медианы вместо среднего в оценке такой «дисперсии» это приведет к более высоким оценкам, чем при использовании среднего, как это делается традиционно.

Кстати, отношения норм L1 и L2 можно рассматривать и в байесовском контексте, как в этой теме .

Тим
источник