Обнаружение выбросов с использованием стандартных отклонений

27

После моего вопроса здесь , мне интересно , если есть сильные мнения за или против использования стандартного отклонения для выявления выбросов (например , любой Datapoint , что более чем 2 стандартное отклонение является останец).

Я знаю, что это зависит от контекста исследования, например, точка данных, 48 кг, безусловно, будет выделяться в исследовании веса детей, но не в исследовании веса взрослых.

Выбросы являются результатом ряда факторов, таких как ошибки ввода данных. В моем случае эти процессы являются надежными.

Я предполагаю, что вопрос, который я задаю: является ли использование стандартного отклонения надежным методом для обнаружения выбросов?

Amarald
источник
1
Вы говорите: «В моем случае эти процессы устойчивы». Это означает, что? Вы уверены, что у вас нет ошибок при вводе данных?
Уэйн
Здесь так много хороших ответов, что я не уверен, какой ответ принять! Любое руководство по этому вопросу было бы полезно
Amarald
В общем, выберите тот, который, по вашему мнению, отвечает на ваш вопрос наиболее прямо и четко, и если это будет слишком сложно, я бы выбрал тот, кто набрал наибольшее количество голосов. Даже немного больно решать, какой из них, важно вознаграждать того, кто нашел время, чтобы ответить.
Уэйн
1
PS Не могли бы вы уточнить с примечанием, что вы подразумеваете под "эти процессы являются надежными"? Это не критично для ответов, которые фокусируются на нормальности и т. Д., Но я думаю, что это имеет какое-то отношение.
Уэйн
3
Выбросы не без модели. Необычный выброс под одну модель может быть совершенно обычной точкой под другой. Первый вопрос должен быть «почему вы пытаетесь обнаружить выбросы?» (вместо того, чтобы делать что-то еще, например, использовать надежные методы), а второй будет «что делает наблюдение выбросом в вашем конкретном приложении?»
Glen_b

Ответы:

26

Некоторые выбросы явно невозможны . Вы упоминаете 48 кг для веса ребенка. Это явно ошибка. Это не статистическая проблема, а существенная. Там нет 48 кг человеческих детей. Любой статистический метод будет определять такую ​​точку.

Лично, вместо того, чтобы полагаться на какие-либо тесты (даже соответствующие, как рекомендовано @Michael), я бы отобразил данные. Отображение того, что определенное значение данных (или значения) маловероятно при некотором предполагаемом распределении, не означает, что значение является неправильным, и поэтому значения не следует автоматически удалять только потому, что они являются экстремальными.

Кроме того, правило, которое вы предлагаете (2 SD от среднего значения), является старым, которое использовалось за несколько дней до того, как компьютеры упростили задачу. Если N равно 100 000, то вы, конечно, ожидаете довольно много значений более 2 SD от среднего значения, даже если существует идеальное нормальное распределение.

Но что, если распределение неверно? Предположим, что в популяции рассматриваемая переменная обычно не распределена, но имеет более тяжелые хвосты, чем эта?

Питер Флом - Восстановить Монику
источник
1
Какое наибольшее значение веса ребенка вы считаете возможным?
mark999
2
Я не знаю. Но можно посмотреть запись. По данным answers.com (из быстрого Google) это было 23,12 фунтов, рожденных от двух родителей с гигантизмом. Если бы я проводил исследование, я бы проверил дальше.
Питер Флом - Восстановить Монику
Что если никто не сможет визуально проверить данные (то есть они могут быть частью автоматического процесса?)
user90772
Как-нибудь добавить графики в автоматизацию.
Питер Флом - Восстановить Монику
24

Да. Это плохой способ «обнаружить» выходы. Для нормально распределенных данных такой метод назвал бы 5% совершенно хороших (хотя и слегка экстремальных) наблюдений "выбросами". Также, когда у вас есть выборка размера n, и вы ищете чрезвычайно высокие или низкие наблюдения, чтобы назвать их выбросами, вы действительно смотрите на статистику экстремальных порядков. Максимум и минимум нормально распределенной выборки обычно не распределены. Поэтому тест должен основываться на распределении крайностей. Это то, что делают тест Граббса и коэффициент Диксона, как я уже упоминал несколько раз ранее. Даже если вы используете соответствующий тест для выбросов, наблюдение не должно быть отклонено только потому, что оно необычайно экстремально. Вы должны выяснить, почему экстремальное наблюдение произошло первым.

Майкл Р. Черник
источник
1
Так же «плохо», как и отклонение H0 на основе низкого значения p.
Лев
16

Когда вы спрашиваете, сколько стандартных отклонений от среднего значения является потенциальным выбросом, не забывайте, что сам выброс выброса повысит SD, а также повлияет на значение среднего значения. Если у вас есть N значений, отношение расстояния от среднего значения, деленного на SD, никогда не может превышать (N-1) / sqrt (N). Это имеет значение, конечно же, с крошечными образцами. Например, если N = 3, выброс не может быть больше 1,155 * SD от среднего значения, поэтому невозможно, чтобы какое-либо значение было больше 2 SD от среднего. (Это, конечно, предполагает, что вы вычисляете образец SD из имеющихся данных, и у вас нет теоретической причины знать SD населения).

Критические значения для теста Граббса были рассчитаны, чтобы принять это во внимание, и поэтому зависят от размера выборки.

Харви Мотульский
источник
12

Я думаю, что контекст это все. Для приведенного примера, да, ясно, что ребенок весом 48 кг ошибочен, и использование 2 стандартных отклонений может уловить этот случай. Однако нет оснований полагать, что использование 2 стандартных отклонений (или любого другого кратного SD) подходит для других данных. Например, если вы смотрите на остатки пестицидов в поверхностных водах, данные за пределами двух стандартных отклонений довольно распространены. Эти особенно высокие значения не являются «выбросами», даже если они находятся далеко от среднего значения, так как они вызваны дождевыми событиями, недавними применениями пестицидов и т. Д. Конечно, вы можете создать другие «практические правила» (почему бы не 1,5 × SD, или 3.1415927 × SD?), Но, честно говоря, такие правила трудно защитить, и их успех или неудача будут меняться в зависимости от данных, которые вы изучаете. Я думаю, используя суждение и логику, несмотря на субъективность, это лучший способ избавиться от выбросов, а не использовать произвольное правило. В этом случае вам не потребовалось 2 × SD для обнаружения 48-килограммового выброса - вы смогли объяснить это. Разве это не лучший метод? Для случаев, когда вы не можете объяснить это, ну, произвольные правила лучше?

Паурит
источник