Усеченное среднее против медианного

У меня есть набор данных со всеми звонками в службу экстренной помощи и временем отклика отделения скорой помощи. Они признали, что есть некоторые ошибки с временем отклика, так как есть случаи, когда они не начали запись (таким образом, значение 0) или когда они не останавливали часы (таким образом, значение может быть чрезвычайно высоким).

Я хочу выяснить центральную тенденцию, и мне было интересно, лучше ли использовать медиану или усеченное среднее, чтобы избавиться от выбросов?

mean outliers median trimmed-mean Duarte_RV
источник

Во-первых, я бы удалил все недействительные данные (значение = 0). Затем я бы визуализировал данные с помощью гистограммы или прямоугольника, чтобы увидеть, где я стою. Потому что вы не можете просто слепо обрезать данные на 5%, если у вас есть 10% неверных данных ...

alesc

Да, или подготовить CDF. В R сделайте это: times = times [times> 0]; сюжет (ecdf (раз))

Пол

Ответы:

Подумайте, что означает усеченное значение: в прототипе вы сначала сортируете свои данные в порядке возрастания. Затем вы подсчитываете процент отсечения снизу и отбрасываете эти значения. Например, усеченное на 10% среднее является распространенным; в этом случае вы будете считать с самого низкого значения, пока не пройдете 10% всех данных в вашем наборе. Значения ниже этой отметки откладываются. Аналогично, вы начинаете обратный отсчет с самого высокого значения до тех пор, пока не пройдете процент обрезки, и отложите все значения выше этого значения. Теперь у вас осталось 80%. Вы берете среднее значение этого, и это ваше усредненное значение на 10%. (Обратите внимание, что вы можете обрезать неравные пропорции от двух хвостов или обрезать только один хвост, но эти подходы встречаются реже и не подходят для вашей ситуации.)

Теперь подумайте о том, что произойдет, если вы вычислили усеченное на 50% среднее. Нижняя половина будет отложена, как и верхняя половина. У вас останется только одно значение в середине (обычно). Вы бы взяли среднее значение этого (то есть вы бы просто взяли это значение) в качестве усеченного среднего. Обратите внимание, что это значение является медианой. Другими словами, медиана является усеченным средним (это усеченное на 50% среднее). Это просто очень агрессивный. По сути, предполагается, что 99% ваших данных загрязнены. Это дает вам максимальную защиту от выбросов за счет предельной потери мощности / эффективности .

Я предполагаю, что среднее / усеченное на 50% среднее намного более агрессивно, чем необходимо для ваших данных, и слишком расточительно для имеющейся у вас информации. Если у вас есть какое-либо представление о пропорции существующих выбросов, я бы использовал эту информацию, чтобы установить процент обрезки и использовать соответствующее усеченное среднее. Если у вас нет какой-либо основы для выбора процента усечения, вы можете выбрать одну путем перекрестной проверки или использовать надежный регрессионный анализ только с перехватом.

Gung - Восстановить Монику
источник

Я согласен с духом этого, но это может быть неправильно истолковано, поскольку подразумевается, что обрезанные средства обязательно основаны на обрезании равных долей в каждом хвосте. Это обычная процедура, и процедура, наиболее часто обсуждаемая для эталонного случая приблизительно симметричных, но, возможно, распределений с "толстым хвостом", но ни в коем случае не является обязательной. Существует литература по обрезке только одного хвоста, которая имеет смысл, когда все сомнительные ценности могут быть в хвосте.

Ник Кокс

@ НикКокс, хорошая мысль. Я добавил небольшой текст, чтобы прояснить это. Дайте мне знать, если вы думаете, что нужно больше.

gung - Восстановить Монику

Выглядит хорошо. Естественно, обрезка одного хвоста - это как раз тот особый случай неравных пропорций, когда одна пропорция равна нулю.

Ник Кокс

@NickCox, конечно, но я подумал, что, может быть, лучше быть явным.

gung - Восстановить Монику

-1

Прежде всего, удалите неверные данные.

Во-вторых, вам не нужно удалять выбросы, так как они являются наблюдаемыми значениями. В некоторых случаях это полезно (как в случае линейной регрессии), но в вашем случае я не вижу смысла.

Наконец, предпочтите медиану, чтобы точнее найти центр ваших данных. Как вы сказали, среднее может быть чувствительным к выбросам (использование усеченного среднего может быть смещено).

Филипп Реми
источник

Поскольку оценка местоположения является частным случаем регрессии, мне было бы любопытно узнать, как может быть полезно удалить выбросы в последнем, но не в первом случае.

user603 10.06.15