Я работаю с сильно искаженными данными, поэтому я использую медиану вместо среднего для суммирования центральной тенденции. Я хотел бы иметь меру дисперсии Хотя я часто вижу людей, сообщающих о среднем стандартном отклонении± ± или медиане квартилях, чтобы подвести итог центральной тенденции, можно ли сообщать о медиане медианной абсолютной дисперсии (MAD) ? Есть ли потенциальные проблемы с этим подходом?
Я бы нашел этот подход более компактным и интуитивно понятным, чем отчеты о нижнем и верхнем квартилях, особенно в больших таблицах, полных цифр.
Ответы:
Я не думаю, что медиана безумный уместен в целом.±
Вы можете легко построить распределения, в которых 50% данных немного ниже медианы, а 50% данных разбросаны намного больше медианы - например, (4.9,4.9,4.9,4.9,5,1000000,1000000,100000 , +1000000). Нотация 5 0.10, кажется, предполагает наличие некоторой массы вокруг (median + mad ~ = 5.10), и это не всегда так, и вы даже не подозреваете, что есть большая масса около 1000000.±
Квартили / квантили дают гораздо лучшее представление о распределении за счет дополнительного числа - (4.9,5.0,1000000.0). Я сомневаюсь, что это совершенно совпадение, что асимметрия - это третий момент, и мне, кажется, нужны три числа / измерения, чтобы интуитивно визуализировать искаженное распределение.
Тем не менее, в этом нет ничего плохого как такового - я просто утверждаю интуицию и читабельность здесь. Если вы используете это для себя или своей команды, сходите с ума. Но я думаю, что это смутит широкую аудиторию.
источник
Использование MAD сводится к предположению, что лежащее в основе распределение является симметричным (отклонения выше медианы и ниже медианы считаются одинаковыми). Если ваши данные искажены, это явно неправильно: это приведет к переоценке истинной изменчивости ваших данных.
К счастью, вы можете выбрать одну из нескольких альтернатив сумасшедшим, которые одинаково устойчивы, почти так же просты для вычисления и не предполагают симметрии.
Посмотрите на Rousseeuw и Croux 1992 . Эти концепции хорошо объяснены здесь и реализованы здесь . Эти две оценки являются членами так называемого класса U-статистики, для которого существует хорошо разработанная теория.
источник
«В этой статье изучается более точный индекс асимметрии. В частности, предлагается использовать левую и правую дисперсию и вводится индекс асимметрии на их основе. Несколько примеров демонстрируют ее полезность. Вопрос более точной оценки дисперсии данных о среднем появляется во всех несимметричных распределениях вероятности. Когда распределение населения несимметрично, среднее значение и дисперсия (или стандартное отклонение) набора данных не дают точного представления о распределении данных, особенно форма и симметрия. Утверждается, что среднее значение, предполагаемая левая дисперсия (или левое стандартное отклонение) и правая дисперсия (или правое стандартное отклонение) описывают набор данных более точно ».
Ссылка на сайт
источник