Это известный факт, что медиана устойчива к выбросам. Если это так, то когда и почему мы будем использовать среднее значение в первую очередь?
Возможно, я могу придумать одну вещь: понять наличие выбросов, то есть если медиана далека от среднего значения, тогда распределение искажено и, возможно, необходимо изучить данные, чтобы решить, что делать с выбросами. Есть ли другие варианты использования?
mathematical-statistics
mean
median
легенда
источник
источник
Ответы:
В некотором смысле среднее значение используется, потому что оно чувствительно к данным. Если распределение оказывается симметричным, а хвосты подобны нормальному распределению, среднее значение является очень эффективным обобщением центральной тенденции. Медиана, будучи надежной и четко определенной для любого непрерывного распределения, является всего лишь такой же эффективной, как и среднее значение, если данные получены из нормального распределения. Именно эта относительная неэффективность медианы мешает нам использовать ее даже больше, чем мы. Относительная неэффективность выражается в незначительной абсолютной неэффективности, поскольку размер выборки становится большим, поэтому при больших мы можем быть более свободными от использования медианы. н2π n
Интересно отметить, что для измерения вариации (разброса, дисперсии) существует очень надежная оценка, которая на 0,98 эффективнее, чем стандартное отклонение, а именно средняя разница Джини. Это средняя абсолютная разница между любыми двумя наблюдениями. [Необходимо умножить стандартное отклонение выборки на константу, чтобы оценить ту же величину, оцененную по средней разнице Джини.] Эффективной мерой центральной тенденции является оценка Ходжса-Лемана, т. Е. Медиана всех парных средних. Мы бы использовали его больше, если бы его интерпретация была проще.
источник
w <- outer(x, x, '+'); median(w[row(w) >= col(w)])/2
. R может вызвать тривиальную программу на C, Fortran или Ratfor, чтобы она работала быстро. Пакет ICSNP в R имеет довольно эффективную реализацию со своейhl.loc
функцией. Для N = 5000 он был в 2,66 раза быстрее, чем приведенный выше код (общее время 1,5 с). Было бы неплохо также получить доверительный интервал эффективно.Уже много хороших ответов, но, сделав шаг назад и сделав немного более простой, я бы сказал, потому что ответ, который вы получите, зависит от вопроса, который вы задаете. Среднее значение и медиана отвечают на разные вопросы - иногда один уместен, иногда другой.
Просто сказать, что медиана должна использоваться, когда есть выбросы, или для искаженных распределений, или чего-то еще. Но это не всегда так. Возьмите доход - почти всегда сообщается со средним, и обычно это правильно. Но если вы смотрите на покупательную способность целого сообщества, это может быть неправильно. А в некоторых случаях даже режим может быть лучшим (особенно если данные сгруппированы).
источник
Когда значение для нас является мусором, мы называем его «внешним» и хотим, чтобы анализ был надежным (и предпочитаем медиану); когда это же значение является привлекательным, мы называем его «экстремальным» и хотим, чтобы анализ был чувствительным к нему (и предпочитаем среднее значение). Диалектика...
Среднее значение одинаково реагирует на изменение значения независимо от того, где в распределении происходит смещение. Например, у
1 2 3 4 5
вас может увеличиться любое значение на 2 - увеличение среднего будет таким же. Реакция медианы менее «последовательна»: добавьте 2 к точкам данных 4 или 5, и медиана не увеличится; но добавьте 2 к пункту 2, чтобы смещение превысило медиану, а медиана резко изменилась (значительно больше, чем изменится среднее значение).Среднее всегда точно находится. Медиана не является; например, в наборе
1 2 3 4
любое значение от 2 до 3 можно назвать медианой. Таким образом, анализы, основанные на медиане, не всегда являются уникальным решением.Среднее - это местоположение минимальной суммы квадратов отклонений. Многие задачи оптимизации, основанные на линейной алгебре (включая известную регрессию OLS), минимизируют эту квадратичную ошибку и, следовательно, подразумевают понятие среднего. Медиана локус минимальной суммы абсолютных отклонений. Методы оптимизации для минимизации такой ошибки являются нелинейными и более сложными / малоизвестными.
источник
Есть много ответов на этот вопрос. Вот тот, который вы, вероятно, не увидите в другом месте, поэтому я включил его сюда, потому что я считаю, что он имеет отношение к теме. Люди часто полагают, что, поскольку медиана считается надежной мерой по отношению к выбросам, она также является устойчивой почти ко всему. На самом деле, он также считается устойчивым к смещению в искаженных дистрибутивах. Эти два надежных свойства медианы часто преподаются вместе. Можно отметить, что лежащие в основе искаженные распределения также имеют тенденцию генерировать небольшие выборки, которые выглядят так, как будто они имеют выбросы, и общепринятым считается, что в таких ситуациях используют медианы.
(просто демонстрация того, что это перекос и основная форма)
Теперь давайте посмотрим, что произойдет, если мы выберем из этого распределения выборки разных размеров, вычислим медиану и хотим увидеть, каковы различия между ними.
Как видно из приведенного выше графика, медиана (в красном) гораздо более чувствительна к n, чем среднее значение. Это противоречит некоторому общепринятому мнению относительно использования медиан с низким ns, особенно если распределение может быть искажено. И это подтверждает точку зрения, что среднее значение является известным значением, а медиана чувствительна к другим свойствам, одним из которых является n.
Этот анализ похож на Miller, J. (1988). Предупреждение о среднем времени реакции. Журнал экспериментальной психологии: восприятие и поведение человека , 14 (3): 539–543.
ПЕРЕСМОТР
Подумав о проблеме перекоса, я подумал, что влияние на медиану может быть просто потому, что в небольших выборках у вас больше вероятность того, что медиана находится в хвосте распределения, тогда как среднее значение почти всегда будет взвешиваться значениями, близкими к Режим. Поэтому, возможно, если бы кто-то просто делал выборку с вероятностью выбросов, то, возможно, были бы такие же результаты.
Поэтому я подумал о ситуациях, в которых могут возникать выбросы, и экспериментаторы могут пытаться их устранить.
Если выбросы происходили последовательно, например, один в каждой выборке данных, то медианы являются устойчивыми к воздействию этого выброса, и традиционная история об использовании медиан сохраняется.
Но обычно это не так.
Можно найти выброс в очень немногих ячейках эксперимента и решить использовать медиану вместо среднего в этом случае. Опять же, медиана является более устойчивой, но ее фактическое воздействие относительно невелико, поскольку выбросов очень мало. Это определенно более распространенный случай, чем приведенный выше, но эффект от использования медианы, вероятно, будет настолько мал, что это не будет иметь большого значения.
Возможно, чаще всего выбросы могут быть случайным компонентом данных. Например, истинное среднее значение и стандартное отклонение популяции могут быть около 0, но есть процент времени, когда мы выбираем выборку из популяции, где среднее значение равно 3. Рассмотрим следующую симуляцию, где отбирается только такая популяция, варьируя выборку. размер.
Медиана красного цвета и среднего черного цвета. Это аналогично тому, что получено в искаженном распределении.
В относительно практическом примере использования медиан для избежания влияния выбросов можно столкнуться с ситуациями, когда на оценку влияет n гораздо больше, когда используется медиана, чем когда используется среднее значение.
источник
Из среднего значения легко рассчитать сумму по всем статьям, например, если вы знаете средний доход населения и численность населения, вы можете сразу рассчитать общий доход всего населения.
Среднее значение легко вычислить по
O(n)
временной сложности. Вычисление медианы в линейном времени возможно, но требует больше размышлений. Очевидное решение, требующее сортировки, имеет худшую (O(n log n)
) временную сложность.И я предполагаю, что есть еще одна причина, по которой среднее значение более популярно, чем медиана:
источник
«Известно, что медиана устойчива к выбросам. Если это так, то когда и почему мы будем использовать среднее значение в первую очередь?»
В случаях, когда известно, что нет выбросов, например, когда известен процесс генерирования данных (например, в математической статистике).
Следует отметить тривиальное, что эти две величины (среднее и медианное) на самом деле не измеряют одно и то же, и что большинство пользователей спрашивают первое, когда то, что им действительно должно быть интересно во втором (этот момент хорошо иллюстрируется основанные на медиане критерии Вилкоксона, которые интерпретируются легче, чем t-тесты).
Затем, есть случаи, когда по какой-то причине случайности или иным образом, какое-то регулирование навязывает использование им среднего значения.
источник
Если проблема связана с наличием выбросов, есть несколько простых способов проверить ваши данные.
Выбросы, почти по определению, входят в наши данные, когда что-то меняется либо в процессе, генерирующем данные, либо в процессе, собирающем данные. т.е. данные перестают быть однородными. Если ваши данные не являются однородными, то ни среднее, ни среднее значение не имеют большого смысла, поскольку вы пытаетесь оценить центральную тенденцию двух отдельных наборов данных, которые были смешаны вместе.
Лучший способ обеспечить однородность - это изучить процессы генерации и сбора данных, чтобы убедиться, что все ваши данные поступают из одного набора процессов. Здесь ничто не сравнится с умом.
В качестве дополнительной проверки вы можете обратиться к одному из нескольких статистических тестов: хи-квадрат, Q-тест Диксона, тест Грубба или контрольная диаграмма / диаграмма поведения процесса (обычно X-bar R или XmR). По моему опыту, когда ваши данные можно упорядочить в том виде, в котором они были собраны, диаграммы поведения процесса лучше обнаруживают выбросы, чем тесты выбросов. Это использование графиков может быть несколько спорным, но я считаю, что оно полностью соответствует первоначальному замыслу Шухарта, и это использование явно защищено Дональдом Уилером. Независимо от того, используете ли вы тесты выбросов или графики поведения процесса, помните, что обнаруженный «выброс» является просто сигнальным потенциаломнеоднородность, которая требует дальнейшего изучения. Редко имеет смысл выбрасывать точки данных, если у вас нет объяснения, почему они были выбросами.
Если вы используете R, пакет выбросов предоставляет тесты выбросов, а для диаграмм поведения процессов - qcc , IQCC и qAnalyst. У меня есть личные предпочтения по использованию и выводу пакета qcc.
источник
Когда вы могли бы хотеть среднее?
Примеры из финансов:
При формировании диверсифицированного портфеля, решения, во что и в какую сумму вкладывать средства, среднее значение и ковариация прибыли, вероятно, будут иметь большое значение для вашей проблемы оптимизации.
источник