Есть ли простой способ обнаружения выбросов?

14

Мне интересно, есть ли простой способ обнаружения выбросов.

Для одного из моих проектов, который был в основном корреляцией между количеством раз, когда респонденты участвуют в физической активности в неделю, и количеством раз, когда они едят вне дома (фаст-фуд) в неделю, я нарисовал диаграмму рассеяния и буквально удалил Точки данных, которые были экстремальными. (Диаграмма рассеяния показала отрицательную корреляцию.)

Это было основано на оценочном суждении (на основе диаграммы рассеяния, где эти точки данных были явно экстремальными). Я не делал никаких статистических тестов.

Мне просто интересно, если это разумный способ борьбы с выбросами.

У меня есть данные от 350 человек, поэтому потеря (скажем) 20 точек данных меня не беспокоит.

Amarald
источник
См. Также ответы на аналогичный вопрос строгого определения выброса
Джонас
3
Также очень тесно связан со stats.stackexchange.com/questions/175 . Многие потенциальные методы обнаружения выбросов описаны в ответах по адресу stats.stackexchange.com/questions/213 . Но ближе к делу будет некоторый контекст : что вы делаете с этим графиком рассеяния? Какие выводы вы пытаетесь сделать из этого? Некоторые выводы будут мало зависеть от того, что вы делаете с выбросами, тогда как другие могут зависеть от них критически. Это указывает на то, что методы, которые вы используете для выявления и обработки выбросов, должны зависеть от предполагаемого анализа.
whuber
В наборах экономических данных стандартная практика состоит в том, чтобы просто сказать: «Мы разбиваем массив данных на 2,5% и 97,5%» или, альтернативно, на 1% и 99%. Затем они просто удаляют наблюдения, которые находятся вне этого квантильного диапазона.
@ Harokitty Winsorising, похоже, означает обрезание значений, а не их отбрасывание.
Питер Вуд
Я бы порекомендовал вам также сообщать о точечной диаграмме неотредактированной отдельно от любых ошибок в записи данных. Возможно, что может быть одна или несколько дополнительных отдельных групп населения. Для ознакомления см. Статью Википедии для диаграммы Герцшпрунга – Рассела по адресу en.wikipedia.org/wiki/Hertzsprung%E2%80%93Russell_diagram
Роберт Джонс,

Ответы:

21

Не существует простого звукового способа устранения выбросов. Выбросы могут быть двух видов:

1) Ошибки ввода данных. Их часто легче всего обнаружить и с ними всегда легче иметь дело. Если вы можете найти правильные данные, исправьте их; если нет, удалите его.

2) Законные данные, которые необычны. Это намного сложнее. Для двумерных данных, подобных вашим, выбросы могут быть одномерными или двумерными.

а) одномерный Во-первых, «необычно» зависит от распределения и размера выборки. Вы даете нам размер выборки 350, но каково распределение? Это явно не нормально, так как это относительно небольшое целое число. То, что необычно при Пуассоне, не будет находиться под отрицательным биномом. Я бы как-то подозревал отрицательные биномиальные отношения с нулевым уровнем инфляции.

Но даже если у вас есть распределение, (возможные) выбросы будут влиять на параметры. Вы можете посмотреть на распределения "оставь один", где вы проверите, будет ли точка данных q отклоняться, если данные имеют все точки, кроме q. Даже тогда, однако, что, если есть многократные выбросы?

б) Бивариат. Здесь ни одна из переменных не является необычной сама по себе, но вместе они странные. Существует, возможно, апокрифическое сообщение о том, что однажды в переписи говорилось, что в США было 20 000 12-летних вдов. 12-летние не являются необычными, вдовы также не являются, но 12-летние вдовы.

Учитывая все это, может быть проще сообщить надежную меру отношений.

Питер Флом - Восстановить Монику
источник
Благодарю. Я думаю, что, возможно, эллипс доверия будет хорошим индикатором выбросов, поскольку он покажет процент данных, которые будут находиться в пределах определенного уровня достоверности (учитывая двумерное нормальное распределение).
Амаральд
Ваши данные не могут быть двумерными нормальными, так как они состоят из неотрицательных целых чисел
Питер Флом - Восстановить Монику
18

Я провел много исследований по выбросам, особенно когда работал над проверкой энергетических данных в Ок-Ридже с 1978 по 1980 годы. Существуют формальные тесты для одномерных выбросов для нормальных данных (например, тест Граббса и тест отношения Диксона). Существуют тесты для многомерных выбросов и временных рядов. Книга Барнетта и Льюиса «Выбросы в статистических данных» представляет собой библию о выбросах и охватывает практически все.

Когда я работал в Oak Ridge над проверкой данных, у нас были большие многомерные наборы данных. Для одномерных выбросов существует направление для крайностей (значительно выше среднего и значительно ниже среднего). Но для многовариантных выбросов есть много направлений для поиска выбросов. Наша философия заключалась в том, чтобы рассмотреть, для чего предназначены данные. Если вы пытаетесь оценить определенные параметры, такие как двумерная корреляция или коэффициент регрессии, вам нужно смотреть в направлении, которое оказывает наибольшее влияние на интересующий параметр. В то время я читал неопубликованную статью Мэлловса о функциях влияния. Использование функций влияния для обнаружения выбросов описано в многомерной аналитической книге Гнанадесикана. Конечно, вы можете найти это и в Барнетте и Льюисе.

Функция влияния для параметра определяется в точках в многомерном пространстве наблюдений и по существу измеряет разницу между оценкой параметра, когда точка данных включена, по сравнению с тем, когда она опущена. Вы можете делать такие оценки для каждой точки выборки, но обычно вы можете получить хорошую функциональную форму для функции влияния, которая дает понимание и ускоряет вычисления.

Например, в моей статье в Американском журнале математических и управленческих наук в 1982 году «Функция влияния и ее применение к проверке данных» я показываю аналитическую формулу для функции влияния для двумерной корреляции и контуры постоянного влияния являются гиперболами. Таким образом, контуры показывают направление в плоскости, где функция влияния увеличивается быстрее всего.

В моей статье я показываю, как мы применили функцию влияния для двумерной корреляции с данными Формы 4 FPC о производстве и потреблении энергии. Существует четкая высокая положительная корреляция между ними, и мы обнаружили несколько выбросов, которые сильно повлияли на оценку корреляции. Дальнейшее расследование показало, что по крайней мере один из пунктов был ошибочным, и мы смогли исправить это.

Но важный момент, который я всегда упоминаю при обсуждении выбросов, заключается в том, что автоматический отказ - это неправильно. Выброс не всегда является ошибкой, и иногда он предоставляет важную информацию о данных. Действительные данные не должны быть удалены только потому, что они не соответствуют нашей теории реальности. Независимо от того, трудно ли это сделать, всегда следует выяснять причину возникновения выброса.

Я должен отметить, что это не первый раз, когда многовариантные выбросы обсуждались на этом сайте. Поиск выбросов, вероятно, приведет к нескольким вопросам, в которых обсуждались многовариантные выбросы. Я знаю, что я ссылался на свою газету и эти книги раньше и дал ссылки на них.

Также, когда обсуждается отклонение от нормы, многие из нас на этом сайте рекомендуют против него, особенно если это делается исключительно на основе статистического теста. Питер Хубер часто упоминает надежную оценку в качестве альтернативы отклонению. Идея состоит в том, что надежные процедуры уменьшают выбросы, уменьшая их влияние на оценку, без сложного шага их отклонения и использования ненадежной оценки.

Функция влияния была первоначально разработана Фрэнком Хэмпелом в его докторской диссертации в начале 1970-х (я думаю, 1974). Его идея состояла в том, чтобы на самом деле использовать функции влияния, чтобы идентифицировать оценки, которые не были устойчивы к выбросам, и помочь в разработке надежных оценок.

Вот ссылка на предыдущее обсуждение по этой теме, где я упомянул некоторую мою работу по обнаружению выбросов во временных рядах с использованием функций влияния.

Майкл Р. Черник
источник
2

Другой простой подход к работе с выбросами - использование непараметрической статистики. Вероятно, с вашим размером выборки число Спирмена будет хорошо работать как показатель корреляции. (Тем не менее, обратите внимание, что непараметрическая статистика рангового порядка мало помогает в нелинейных отношениях.)

Если вы хотите использовать r Пирсона (параметрическую статистику), и если вы не можете вычислить расстояние Кука, вы можете использовать стандартное эмпирическое правило, согласно которому любая точка данных превышает 2,67 стандартных отклонения (sd) от среднего значения. или 4.67 sd от среднего значения - выброс или экстремум, соответственно. Это типичные значения отсечки для выбросов и экстремальных точек данных, которые используются в одной стандартной программе статистического анализа (SPSS).

Тот факт, что точка данных является выбросом, не означает, что данные отбрасываются неверно. Вы можете вычислить свою корреляцию с экстремальными точками и без них и перейти оттуда.

Джоэл В.
источник
1

Вы можете попробовать расстояние Кука. См. Статью в Википедии для предлагаемых сокращений. Кроме того, если вы движетесь к некоторой регрессионной модели, вы можете попробовать надежную регрессию.

Эрик Браун
источник
1
Это больше похоже на комментарий, чем на ответ; ответы обычно более длинные и подробные. Например, если вы включили рассуждения о том, почему расстояние Кука является хорошим тестом для выбросов, и так, один из них, это будет ответом.
Питер Флом - Восстановить Монику
1

Во-первых, не удаляйте нетипичные значения, если вы не уверены, что находитесь вне исследования! Они могут содержать некоторую важную информацию (изменчивость). Вы должны отбросить их, если очевидно, что выброс произошел из-за неправильно введенных или измеренных данных. Если вы не знаете метод выборки, используемый для получения ваших данных, вам следует определить нетипичные значения и их влияние следующим образом:

  1. Степень ненормальности: ожидается 5% наблюдений со стандартизованными остатками (ея*)> 2. Если у вас есть более высокие остатки, вы можете заподозрить выбросы.

  2. Степень расстояния до центра тяжести в пространстве х: часяя(Плечо). Когда некоторыечасяя очень высокое, у вас есть наблюдение, которое может исказить вашу модель, потому что находится за пределами вашего исследования.

  3. Степень влияния на подобранную модель: точки влияния - это те, которые имеют достаточный вес, чтобы изменить вашу модель. Тогда коэффициенты подобранной модели, использующей все n наблюдений, сильно отличаются от коэффициентов подогнанной модели, использующей все точки, но не это наблюдениея-м.
    Расстояние Кука или D Кука - это обычно используемая оценка влияния точки данных. :DСязнак равноея*2·часяя/[(1-часяя)·п]

Возможные решения:

  • Преобразование переменных и / или добавление новых переменных в модель.
  • Для влиятельных наблюдений, которые являются ничем иным, как выбросами, если не многими, вы можете удалить этих людей.
user7334982
источник