Обесцвечивание данных означает замену крайних значений набора данных определенным значением процентиля с каждого конца, в то время как Обрезка или Усечение включает удаление этих предельных значений.
Я всегда вижу, что оба метода обсуждаются как жизнеспособный вариант, чтобы уменьшить влияние выбросов при вычислении статистики, такой как среднее значение или стандартное отклонение, но я не видел, почему один может выбрать один над другим.
Есть ли какие-либо относительные преимущества или недостатки использования Winsorizing или Trimming? Существуют ли определенные ситуации, когда один метод предпочтительнее? Используется ли чаще на практике или они в основном взаимозаменяемы?
Ответы:
В другом, но связанном с этим вопросе об обрезке, с которым я только что наткнулся, в одном ответе было следующее полезное понимание того, почему можно использовать или winsorizing, или обрезку:
Мне любопытно, есть ли более определенный подход, но приведенная выше логика звучит разумно.
источник
Хороший вопрос, который часто встречается во всех областях! В любом случае вы технически удаляете их из набора данных.
Я знаю, что при попытке графически найти тенденцию использовать форму усечения является обычной практикой: использовать весь набор данных для построения графиков, но затем исключить крайние значения для интерпретации.
Проблема с «winsorizing» заключается в том, что добавляемые вами части являются самозаполняющимися, то есть они берутся из самого набора данных и поэтому просто поддерживают его. Есть простые проблемы, если вы посмотрите на перекрестную проверку / классификацию в машинном обучении, когда решаете, как использовать обучающие и тестовые наборы данных.
В любом случае я не встречал стандартизированного подхода - он всегда специфичен для данных. Вы можете попытаться выяснить, какой процентиль ваши данные (выбросы) вызывают определенный процент волатильности / ст. отклонение, и найдите баланс между снижением этой волатильности, но сохранением как можно большего количества данных.
источник
Это хороший вопрос, с которым я столкнулся. В тех случаях, когда у вас большой набор данных или, точнее, сильно изменяющийся набор данных, где меньшая часть значений данных изменяется в широком масштабе (но, тем не менее, это требуется для отображения), и большая часть набора данных находится в узкой полосе, таким образом, что если данные построены как есть, детали, в которых лежит большая часть данных, теряются, а нормализация или стандартизация не показывают адекватной дифференциации (по крайней мере, визуально), или вместо этого требуются необработанные данные, затем усечение или обесценивание экстремальные значения данных помогают улучшить визуализацию данных.
источник
источник