Строгое определение выброса?

44

Люди часто говорят о работе с выбросами в статистике. Что меня беспокоит в этом, так это то, что, насколько я могу судить, определение выброса является полностью субъективным. Например, если истинное распределение некоторой случайной величины является очень тяжелым или бимодальным, любая стандартная визуализация или сводная статистика для обнаружения выбросов будет неправильно удалять части распределения, из которого вы хотите произвести выборку. Что такое строгое определение выброса, если таковой существует, и как можно бороться с выбросами, не привнося необоснованных количеств субъективности в анализ?

dsimcha
источник
Если вы хотите узнать конкретный дистрибутив, спросите о своем примере. Это будет отличаться для разных ситуаций.
Джон
8
Что ж, я ожидаю, что у вас будет время, rigorous definition of an outlierкогда вы сможете определить unreasonable amounts of subjectivityобъективную манеру ;-), Спасибо
ешьте
1
Но определение может варьироваться в зависимости от распределения и ситуации. Я мог бы сказать ± 1,5 IQR, или 3 SD, или что-то подобное. Но я мог бы использовать совершенно другой подход, если бы у меня было два вида мер, например, время реакции и точность. Я могу сказать, что RT обусловлен уровнем точности. Все они могут быть хорошими и математически строгими и иметь разные приложения и значения.
Джон
2
Существует множество строгих определений выбросов. Но выбор среди них может показаться произвольным. Но я думаю, что это является частью неправильного представления о том, что статистика - это предмет, на который у каждой проблемы есть один правильный ответ.
Питер Флом - Восстановить Монику

Ответы:

23

Пока ваши данные поступают из известного распределения с известными свойствами, вы можете строго определить выброс как событие, которое слишком маловероятно для того, чтобы быть сгенерированным наблюдаемым процессом (если вы считаете «слишком маловероятным», чтобы быть не строгим, то вся проверка гипотез есть).

Однако этот подход проблематичен на двух уровнях: он предполагает, что данные поступают из известного распределения с известными свойствами, и он несет риск того, что выбросы будут рассматриваться как точки данных, которые были ввезены контрабандой в ваш набор данных некоторыми волшебными феями.

В отсутствие магических данных все данные поступают из вашего эксперимента, и, следовательно, на самом деле невозможно получить выбросы, просто странные результаты. Это может быть связано с ошибками записи (например, 400000 комнатный дом за 4 доллара), систематическими проблемами измерения (алгоритм анализа изображения сообщает об огромных площадях, если объект находится слишком близко к границе), экспериментальными проблемами (иногда кристаллы выпадают в осадок из раствора, которые дают очень высокий сигнал), или особенности вашей системы (ячейка может иногда делиться на три вместо двух), но они также могут быть результатом механизма, который никто никогда не рассматривал, потому что это редко, и вы проводите исследования, Это означает, что некоторые вещи, которые вы делаете, просто еще не известны.

В идеале вы тратите время на изучение каждого выброса и удаляете его из своего набора данных только тогда, когда понимаете, почему он не подходит для вашей модели. Это отнимает много времени и субъективно в том смысле, что причины сильно зависят от эксперимента, но альтернатива еще хуже: если вы не понимаете, откуда взялись выбросы, у вас есть выбор между тем, чтобы выбросы "испортили" ваши результаты, или определить какой-то «математически строгий» подход, чтобы скрыть недостаток понимания. Другими словами, преследуя «математическую строгость», вы выбираете между отсутствием значительного эффекта и не попаданием на небеса.

РЕДАКТИРОВАТЬ

Если все, что у вас есть, это список чисел, не зная, откуда они берутся, вы не сможете определить, является ли какая-то точка данных выбросом, потому что вы всегда можете предположить распределение, где все данные являются выбросами.

Jonas
источник
3
Однако не все выбросы генерируются из эксперимента. Я работал с большим набором данных, который занимался сбором информации о недвижимости в регионе (цена продажи, количество спален, квадратные метры и т. Д.), И время от времени возникали ошибки при вводе данных, и я получал 400 000 комнатного дома идут за 4 доллара, или что-то бессмысленное в этом роде. Я бы подумал, что часть цели определения выброса состоит в том, чтобы увидеть, возможно ли его сгенерировать из данных, или это была просто ошибка ввода.
Кристофер Аден
2
@ Кристофер Аден: Я бы рассмотрел эту часть экспериментального процесса. По сути, чтобы иметь возможность удалять выбросы, вы должны понимать, как были сгенерированы данные, то есть не удалять выбросы без веской причины. В противном случае вы просто стилизуете свои данные. Я отредактировал свой ответ, чтобы отразить это немного лучше.
Йонас
Это вполне разумно, но предполагает, что у вас уже есть достаточное количество предварительных знаний о том, что такое истинный дистрибутив. Я больше думал о сценариях, где вы этого не делаете, и это может быть очень тяжелый хвост или бимодальный.
dsimcha
@dsimcha: я не думаю, что вы можете определить выбросы в этом случае (см. также мое редактирование).
Джонас
2
@dsimcha - у вас всегда есть предварительные знания! как вам были переданы данные? Вы всегда всегда так много знаете. данные волшебным образом не появляются. и вы всегда можете сделать предварительные предположения. «выбросы», основанные на этих предположениях, в основном дают вам понять, что что-то в ваших предположениях неверно. изучая «выброс» (который всегда относителен), вы можете улучшить свою модель.
вероятностная
13

Вы правы, что удаление выбросов может выглядеть как субъективное упражнение, но это не значит, что это неправильно. Обязательная потребность всегда иметь строгую математическую причину для каждого решения, касающегося вашего анализа данных, часто является лишь тонкой завесой искусственной строгости по сравнению с тем, что в любом случае оказывается субъективным упражнением. Это особенно верно, если вы хотите применить одно и то же математическое обоснование к каждой ситуации, с которой вы сталкиваетесь. (Если бы были пуленепробиваемые четкие математические правила для всего, тогда вам не понадобился бы статистик.)

Например, в вашей ситуации с распределением длинных хвостов не существует гарантированного способа просто определить из чисел, есть ли у вас одно базовое распределение интересов с выбросами или два базовых распределения интереса с выбросами, являющимися частью только одного из них. Или, боже упаси, просто фактическое распространение данных.

Чем больше данных вы собираете, тем больше вы попадаете в области с низкой вероятностью распределения. Если вы соберете 20 образцов, маловероятно, что вы получите значение с z-счетом 3,5. Если вы соберете 10000 образцов, очень вероятно, что вы получите один, и это естественная часть распределения. Учитывая вышесказанное, как вы решаете только потому, что что-то является крайним, чтобы исключить это?

Выбор лучших методов для анализа часто субъективен. Является ли это необоснованно субъективным, зависит от объяснения решения и от выброса.

Джон
источник
+1 Барнетт и Льюис, написавшие книгу о выбросах , утверждают, что «выброс в наборе данных [является] наблюдением (или подмножеством наблюдений), который, по-видимому, не согласуется с остальной частью этого набора данных » [на стр. , 7]. Они продолжают: «Это вопрос субъективного суждения со стороны наблюдателя, выбрано ли какое-то наблюдение ... для проверки ... ... Что характеризует« выброс », так это его влияние на наблюдателя ...». "
whuber
«книга» здесь немного двусмысленная. Я бы назвал Барнетта и Льюиса ведущей монографией, но это не единственная книга о выбросах. amazon.com/Outlier-Analysis-Charu-C-Aggarwal/dp/1461463955 недавно. Есть также старая книга Д. М. Хокинса.
Ник Кокс
9

Я не думаю, что можно определить выброс, не предполагая модель базового процесса, дающего начало данным. Без такой модели у нас нет системы отсчета, чтобы решить, являются ли данные аномальными или «неправильными». Определение выброса, которое я нашел полезным, состоит в том, что выброс - это наблюдение (или наблюдения), которое нельзя согласовать с моделью, которая в противном случае работает хорошо.

Дикран Сумчатый
источник
2
Хм ... В своем тексте EDA Джон Тьюки специально определил выбросы, не используя никаких моделей вообще.
whuber
7
Вы можете определить выбросы без модели, но я нашел такие определения бесполезными. Кстати, под моделью я не обязательно подразумеваю статистическую модель, которая явно соответствовала данным. Любое определение выброса требует от вас предположения о том, какие значения вы ожидаете увидеть и какие значения вы не ожидаете увидеть. Я думаю, что было бы лучше, если бы эти предположения (то есть модель) были сделаны явными. Также есть смысл, что в EDA, когда вы изучаете данные, ваше определение выброса для EDA может сильно отличаться от определения окончательной модели.
Дикран Marsupial
6

Здесь много отличных ответов. Однако я хочу отметить, что два вопроса перепутаны. Во-первых, «что является выбросом?», И, более конкретно, дать «строгое определение» такого. Это просто:

Выделение - это точка данных, которая исходит из другого процесса заполнения / распределения / генерации данных, чем тот, который вы намеревались изучить / остальные данные.

Второй вопрос: «Как мне узнать / обнаружить, что точка данных является выбросом?» К сожалению, это очень сложно. Тем не менее, ответы, приведенные здесь (которые действительно очень хороши, и которые я не могу улучшить) будут весьма полезны для этой задачи.

Gung - Восстановить Монику
источник
1
Это наводящий на размышления ответ. Итак, предположим, что я сгенерировал значений iid из нормального распределения - они могут охватывать диапазон от до - и сгенерировал еще одно значение из нормального распределения, и это бывает равным (для которого есть шанс из ). Маловероятно, что дополнительные будут определены как выбросы. Вы утверждаете, что это действительно так? Ваша цитата заставляет меня так думать, но я не понимаю, как это можно сделать практически работоспособным. ( 0 , 1 ) - 2,5 2,5 ( 4 , 1 ) 2 1 40 299(0,1)2.52.5(4,1)21402
whuber
1
@ whuber, да. Я говорю , что это особняком, хотя вы никогда бы не заметить (что, как я подозреваю, что вы имеете в виду практически эксплуатационный).
gung - Восстановить Монику
1
Я ценю различие, которое вы проводите. Я просто хотел указать на резкий контраст между вашим определением и большинством других определений или описаний выбросов в этой теме. Похоже, что ваш не может привести к удовлетворительным практическим процедурам: вы всегда должны были бы признать, что огромная часть вашего набора данных может быть «внешней», но без какого-либо способа обнаружить или разрешить это.
whuber
@whuber, я искренне согласен. Я считаю, что это примерно аналогично проверке гипотез, когда (например) 2 группы могут отличаться на очень маленькую, необнаружимую величину или могут отличаться на умеренную величину, но выборки, с которыми вы в итоге оказались, были очень похожи только по случайности; тем не менее, с теоретической точки зрения стоит понимать и поддерживать различие.
gung - Восстановить Монику
1
@ whuber, ты прав. Некоторые делают это различие, но многие не ясно об этих идеях. Моя позиция заключается в том, что не существует значимой реальности "посторонних", кроме загрязняющих веществ . Тем не менее, люди также должны / вместо этого думать о проблеме как о том, что ее беспокоит точка (и), если ваши результаты определяются только ими (являются ли они «реальными» или нет), и, следовательно, ваши результаты очень хрупки. Короче говоря, нет причин для беспокойства по поводу точек, которые относятся к вашему населению и не влияют исключительно на ваши результаты; как только вы разберетесь с этими двумя проблемами, ничего не останется.
gung - Восстановить Монику
6

Определение 1: Как уже упоминалось, выброс в группе данных, отражающих один и тот же процесс (скажем, процесс A), является наблюдением (или набором наблюдений), которое вряд ли будет результатом процесса A.

Это определение, безусловно, включает в себя оценку функции правдоподобия процесса A (отсюда модель) и определение того, что означает маловероятный (то есть решение, где остановиться ...). Это определение лежит в основе ответа, который я дал здесь . Это больше связано с идеями проверки гипотезы значимости или добротности соответствия .

Определение 2 Выброс - это наблюдение в группе наблюдений такое, что при моделировании группы наблюдений с помощью данной модели точность выше, если удален и обработан отдельно (со смесью, в духе того, что я здесь упоминаю ).г хxGx

Это определение включает в себя «данную модель» и меру точности. Я думаю, что это определение больше с практической стороны и больше в происхождении выбросов. В происхождении обнаружение выбросов было инструментом для надежной статистики .

Очевидно, что эти определения могут быть очень похожими, если вы понимаете, что вычисление вероятности в первом определении включает моделирование и вычисление оценки :)

Робин Жирар
источник
2

Выброс - это точка данных, которая мне неудобна, учитывая мое текущее понимание процесса, который генерирует эти данные.

Я считаю, что это определение настолько строго, насколько это возможно.

Wayne
источник
Сравните это с определением Джона Тьюки (он использовал термин «снаружи»): «Когда мы смотрим на некоторые партии значений, мы видим, что некоторые значения явно выходят далеко за пределы других…. Удобно иметь правило большой палец, который выбирает определенные значения как «внешние» ... «Позже он резюмирует это как« ... идентификация отдельных значений, которые могут быть необычными ». [EDA, глава 2]. На протяжении всей книги он подчеркивает, что мы описываем данные, а не притворяемся, что «понимаем процесс», и что всегда возможно множество допустимых описаний.
whuber
Точно так же «выбросы - это значения выборки, которые вызывают удивление по отношению к большей части выборки» (WN Venables и BD Ripley. 2002. Современная прикладная статистика с S. New York: Springer, p.119). Тем не менее, удивление находится в уме смотрящего и зависит от какой-то неявной или явной модели данных. Может быть другая модель, при которой выброс не удивляет вообще, скажем, данные действительно являются логнормальными или гамма, а не нормальными.
Ник Кокс
@Nick Это согласуется с Барнеттом и Льюисом, которых я цитирую в комментарии к ответу Джона .
whuber
@whuber: Вы говорите «Контраст это», что, я думаю, означает, что вы не согласны, но я не уверен. Я бы сказал, что формирование моделей - возможно, неявное и наивное - вот почему мы видим закономерности в данных, или человека на луне, или выбросов. Модель может не иметь физическую / химическую / экономическую основу, но мы выдвинули гипотезу модели. Иначе нет ничего удивительного, нет «снаружи».
Уэйн
Тьюки настаивает на том, что при описании данных мы не обязательно их моделируем . Будет справедливо расширить определение «модель», включив описание данных, но тогда этот термин становится слишком общим, чтобы быть полезным. С точки зрения Тьюки (как я понимаю, конечно), нет беспокойства о потере лица, и нет никакого вопроса об удобстве или нет. Таким образом, хотя я уважаю вашу мотивацию, я думаю, что ваше отношение (как отражено в «спасении лица» и «неудобно») менее конструктивно, чем другие подходы к этому вопросу.
whuber
0

определить выброс как элемент этого минимального набора элементов, который должен быть удален из набора данных размера n, чтобы обеспечить 100% -ное соответствие тестам RUM, проведенным с уровнем достоверности 95% для всех (2 ^ n -1) уникальных подмножеств данные. См. Текст Karian и Dudewicz о подгонке данных к PDF-файлам с использованием R (сентябрь 2010 г.) для определения теста RUM.

Джерри Олдерман
источник
-2

Выбросы важны только в частоте. Если одиночная точка данных добавляет смещение в вашу модель, которая определяется базовым распределением, предопределенным вашей теорией, то это является выбросом для этой модели. Субъективность заключается в том, что если ваша теория устанавливает другую модель, то у вас может быть другой набор точек в качестве выбросов.


источник
1
Вы утверждаете, что выбросы не важны в анализе байесовских данных?
whuber