Люди часто говорят о работе с выбросами в статистике. Что меня беспокоит в этом, так это то, что, насколько я могу судить, определение выброса является полностью субъективным. Например, если истинное распределение некоторой случайной величины является очень тяжелым или бимодальным, любая стандартная визуализация или сводная статистика для обнаружения выбросов будет неправильно удалять части распределения, из которого вы хотите произвести выборку. Что такое строгое определение выброса, если таковой существует, и как можно бороться с выбросами, не привнося необоснованных количеств субъективности в анализ?
outliers
definition
dsimcha
источник
источник
rigorous definition of an outlier
когда вы сможете определитьunreasonable amounts of subjectivity
объективную манеру ;-), СпасибоОтветы:
Пока ваши данные поступают из известного распределения с известными свойствами, вы можете строго определить выброс как событие, которое слишком маловероятно для того, чтобы быть сгенерированным наблюдаемым процессом (если вы считаете «слишком маловероятным», чтобы быть не строгим, то вся проверка гипотез есть).
Однако этот подход проблематичен на двух уровнях: он предполагает, что данные поступают из известного распределения с известными свойствами, и он несет риск того, что выбросы будут рассматриваться как точки данных, которые были ввезены контрабандой в ваш набор данных некоторыми волшебными феями.
В отсутствие магических данных все данные поступают из вашего эксперимента, и, следовательно, на самом деле невозможно получить выбросы, просто странные результаты. Это может быть связано с ошибками записи (например, 400000 комнатный дом за 4 доллара), систематическими проблемами измерения (алгоритм анализа изображения сообщает об огромных площадях, если объект находится слишком близко к границе), экспериментальными проблемами (иногда кристаллы выпадают в осадок из раствора, которые дают очень высокий сигнал), или особенности вашей системы (ячейка может иногда делиться на три вместо двух), но они также могут быть результатом механизма, который никто никогда не рассматривал, потому что это редко, и вы проводите исследования, Это означает, что некоторые вещи, которые вы делаете, просто еще не известны.
В идеале вы тратите время на изучение каждого выброса и удаляете его из своего набора данных только тогда, когда понимаете, почему он не подходит для вашей модели. Это отнимает много времени и субъективно в том смысле, что причины сильно зависят от эксперимента, но альтернатива еще хуже: если вы не понимаете, откуда взялись выбросы, у вас есть выбор между тем, чтобы выбросы "испортили" ваши результаты, или определить какой-то «математически строгий» подход, чтобы скрыть недостаток понимания. Другими словами, преследуя «математическую строгость», вы выбираете между отсутствием значительного эффекта и не попаданием на небеса.
РЕДАКТИРОВАТЬ
Если все, что у вас есть, это список чисел, не зная, откуда они берутся, вы не сможете определить, является ли какая-то точка данных выбросом, потому что вы всегда можете предположить распределение, где все данные являются выбросами.
источник
Вы правы, что удаление выбросов может выглядеть как субъективное упражнение, но это не значит, что это неправильно. Обязательная потребность всегда иметь строгую математическую причину для каждого решения, касающегося вашего анализа данных, часто является лишь тонкой завесой искусственной строгости по сравнению с тем, что в любом случае оказывается субъективным упражнением. Это особенно верно, если вы хотите применить одно и то же математическое обоснование к каждой ситуации, с которой вы сталкиваетесь. (Если бы были пуленепробиваемые четкие математические правила для всего, тогда вам не понадобился бы статистик.)
Например, в вашей ситуации с распределением длинных хвостов не существует гарантированного способа просто определить из чисел, есть ли у вас одно базовое распределение интересов с выбросами или два базовых распределения интереса с выбросами, являющимися частью только одного из них. Или, боже упаси, просто фактическое распространение данных.
Чем больше данных вы собираете, тем больше вы попадаете в области с низкой вероятностью распределения. Если вы соберете 20 образцов, маловероятно, что вы получите значение с z-счетом 3,5. Если вы соберете 10000 образцов, очень вероятно, что вы получите один, и это естественная часть распределения. Учитывая вышесказанное, как вы решаете только потому, что что-то является крайним, чтобы исключить это?
Выбор лучших методов для анализа часто субъективен. Является ли это необоснованно субъективным, зависит от объяснения решения и от выброса.
источник
Я не думаю, что можно определить выброс, не предполагая модель базового процесса, дающего начало данным. Без такой модели у нас нет системы отсчета, чтобы решить, являются ли данные аномальными или «неправильными». Определение выброса, которое я нашел полезным, состоит в том, что выброс - это наблюдение (или наблюдения), которое нельзя согласовать с моделью, которая в противном случае работает хорошо.
источник
Здесь много отличных ответов. Однако я хочу отметить, что два вопроса перепутаны. Во-первых, «что является выбросом?», И, более конкретно, дать «строгое определение» такого. Это просто:
Второй вопрос: «Как мне узнать / обнаружить, что точка данных является выбросом?» К сожалению, это очень сложно. Тем не менее, ответы, приведенные здесь (которые действительно очень хороши, и которые я не могу улучшить) будут весьма полезны для этой задачи.
источник
Определение 1: Как уже упоминалось, выброс в группе данных, отражающих один и тот же процесс (скажем, процесс A), является наблюдением (или набором наблюдений), которое вряд ли будет результатом процесса A.
Это определение, безусловно, включает в себя оценку функции правдоподобия процесса A (отсюда модель) и определение того, что означает маловероятный (то есть решение, где остановиться ...). Это определение лежит в основе ответа, который я дал здесь . Это больше связано с идеями проверки гипотезы значимости или добротности соответствия .
Определение 2 Выброс - это наблюдение в группе наблюдений такое, что при моделировании группы наблюдений с помощью данной модели точность выше, если удален и обработан отдельно (со смесью, в духе того, что я здесь упоминаю ).г хx G x
Это определение включает в себя «данную модель» и меру точности. Я думаю, что это определение больше с практической стороны и больше в происхождении выбросов. В происхождении обнаружение выбросов было инструментом для надежной статистики .
Очевидно, что эти определения могут быть очень похожими, если вы понимаете, что вычисление вероятности в первом определении включает моделирование и вычисление оценки :)
источник
Выброс - это точка данных, которая мне неудобна, учитывая мое текущее понимание процесса, который генерирует эти данные.
Я считаю, что это определение настолько строго, насколько это возможно.
источник
определить выброс как элемент этого минимального набора элементов, который должен быть удален из набора данных размера n, чтобы обеспечить 100% -ное соответствие тестам RUM, проведенным с уровнем достоверности 95% для всех (2 ^ n -1) уникальных подмножеств данные. См. Текст Karian и Dudewicz о подгонке данных к PDF-файлам с использованием R (сентябрь 2010 г.) для определения теста RUM.
источник
Выбросы важны только в частоте. Если одиночная точка данных добавляет смещение в вашу модель, которая определяется базовым распределением, предопределенным вашей теорией, то это является выбросом для этой модели. Субъективность заключается в том, что если ваша теория устанавливает другую модель, то у вас может быть другой набор точек в качестве выбросов.
источник