У меня есть набор данных со всеми звонками в службу экстренной помощи и временем отклика отделения скорой помощи. Они признали, что есть некоторые ошибки с временем отклика, так как есть случаи, когда они не начали запись (таким образом, значение 0) или когда они не останавливали часы (таким образом, значение может быть чрезвычайно высоким).
Я хочу выяснить центральную тенденцию, и мне было интересно, лучше ли использовать медиану или усеченное среднее, чтобы избавиться от выбросов?
mean
outliers
median
trimmed-mean
Duarte_RV
источник
источник
Ответы:
Подумайте, что означает усеченное значение: в прототипе вы сначала сортируете свои данные в порядке возрастания. Затем вы подсчитываете процент отсечения снизу и отбрасываете эти значения. Например, усеченное на 10% среднее является распространенным; в этом случае вы будете считать с самого низкого значения, пока не пройдете 10% всех данных в вашем наборе. Значения ниже этой отметки откладываются. Аналогично, вы начинаете обратный отсчет с самого высокого значения до тех пор, пока не пройдете процент обрезки, и отложите все значения выше этого значения. Теперь у вас осталось 80%. Вы берете среднее значение этого, и это ваше усредненное значение на 10%. (Обратите внимание, что вы можете обрезать неравные пропорции от двух хвостов или обрезать только один хвост, но эти подходы встречаются реже и не подходят для вашей ситуации.)
Теперь подумайте о том, что произойдет, если вы вычислили усеченное на 50% среднее. Нижняя половина будет отложена, как и верхняя половина. У вас останется только одно значение в середине (обычно). Вы бы взяли среднее значение этого (то есть вы бы просто взяли это значение) в качестве усеченного среднего. Обратите внимание, что это значение является медианой. Другими словами, медиана является усеченным средним (это усеченное на 50% среднее). Это просто очень агрессивный. По сути, предполагается, что 99% ваших данных загрязнены. Это дает вам максимальную защиту от выбросов за счет предельной потери мощности / эффективности .
Я предполагаю, что среднее / усеченное на 50% среднее намного более агрессивно, чем необходимо для ваших данных, и слишком расточительно для имеющейся у вас информации. Если у вас есть какое-либо представление о пропорции существующих выбросов, я бы использовал эту информацию, чтобы установить процент обрезки и использовать соответствующее усеченное среднее. Если у вас нет какой-либо основы для выбора процента усечения, вы можете выбрать одну путем перекрестной проверки или использовать надежный регрессионный анализ только с перехватом.
источник
Прежде всего, удалите неверные данные.
Во-вторых, вам не нужно удалять выбросы, так как они являются наблюдаемыми значениями. В некоторых случаях это полезно (как в случае линейной регрессии), но в вашем случае я не вижу смысла.
Наконец, предпочтите медиану, чтобы точнее найти центр ваших данных. Как вы сказали, среднее может быть чувствительным к выбросам (использование усеченного среднего может быть смещено).
источник