У меня есть 1-D случайная величина, которая чрезвычайно искажена. Чтобы нормализовать это распределение, я хочу использовать медиану, а не среднее. у меня такой вопрос: могу ли я вычислить дисперсию распределения, используя медиану в формуле вместо среднего?
т.е. я могу заменить
с
Моя причина в том, что, поскольку дисперсия является мерой разброса по центральной тенденции распределения, это не должно быть проблемой, но я пытаюсь подтвердить эту логику.
Ответы:
Среднее значение минимизирует квадратичную ошибку (или норму L2, см. Здесь или здесь ), поэтому естественным выбором дисперсии для измерения расстояния от среднего значения является использование квадратичной ошибки (см. Здесь, почему мы ее возводим в квадрат) С другой стороны, медиана минимизирует абсолютную ошибку (норма L1), т. Е. Это значение, которое находится в «середине» ваших данных, поэтому абсолютное расстояние от медианы (так называемое медианное абсолютное отклонение или MAD) представляется Лучшая мера степени изменчивости вокруг медианы. Вы можете прочитать больше об этих отношениях в этой теме .
Короче говоря, дисперсия отличается от MAD тем, как они определяют центральную точку ваших данных, и это влияет на то, как мы измеряем изменение точек данных вокруг них. Возведение в квадрат значений приводит к тому, что выбросы оказывают большее влияние на центральную точку (среднее значение), тогда как в случае медианы все точки оказывают одинаковое влияние на нее, поэтому абсолютное расстояние кажется более подходящим.
Это можно показать также с помощью простого моделирования. Если вы сравните значения квадратов расстояний от среднего значения и медианы, то общий квадрат расстояний почти всегда будет меньше среднего значения, чем медианы. С другой стороны, полное абсолютное расстояние меньше от медианы, чем от среднего. Код R для проведения моделирования размещен ниже.
В случае использования медианы вместо среднего в оценке такой «дисперсии» это приведет к более высоким оценкам, чем при использовании среднего, как это делается традиционно.
Кстати, отношения норм L1 и L2 можно рассматривать и в байесовском контексте, как в этой теме .
источник