Удаление выбросов из данных - максимальное количество выбросов, которые вы можете удалить?

9

У меня есть несколько выбросов в моих данных, и я хотел исключить их, чтобы увидеть, изменит ли это результаты. По вашему мнению, каким максимальным количеством выбросов следует ограничиться?

Спасибо! введите описание изображения здесь

Kristie
источник
Здесь ваш график искажен: числовые метки на оси Y отсутствуют, а записи легенды не различимы. (Это может быть способом скрыть неопубликованные данные, но это не поможет нам дать вам хороший совет.) Загадочная легенда не влияет на ваш вопрос, но незнание того, в каком масштабе вы работаете, ограничивает область полезных ответов , Данные, как показано, показывают умеренный левый или отрицательный перекос; это может иметь смысл, и очевидные выбросы являются лишь последствиями этого. В качестве альтернативы может случиться так, что у вас есть чрезмерное преобразование, например, использованные логарифмы, когда данные не заслуживают этого.
Ник Кокс

Ответы:

9

Там нет максимума или минимума. Выбросы следует удалять, если они представляют собой недостоверные данные или имеются другие существенные причины для их удаления. Если нет никаких существенных причин, тогда я предлагаю использовать методы, которые устойчивы к выбросам. Я бы не стал удалять выбросы только потому, что они немного далеки от других точек.

Питер Флом
источник
5
Согласовано. Обратите внимание, что Box, Hunter & Hunter: «Статистика для экспериментаторов» говорит, что в химической промышленности выбросы часто приводят к новым патентам! В зависимости от обстоятельств, выбросы могут быть самым важным элементом информации в ваших данных! Их удаление никогда не должно быть легким.
kjetil b halvorsen
3
Также в астрофизике. «Давайте просто удалим черные данные и нейтронные звезды из данных» :-).
Питер Флом
1
Питер Флом: Да! А среди людей, если бы среди нас не было посторонних, мы все равно жили бы в каменном веке!
kjetil b halvorsen
5
В этом примере обратите внимание, что все 7 отмеченных выбросов имеют низкие значения, в то время как ни один не имеет высоких значений. Это может представлять проблемы с измерением, или это может означать что-то очень интересное. В любом случае, просто исключать выбросы здесь без учета того, что привело к низким значениям, было бы нецелесообразно.
EdM
1
Я интерпретирую вопрос немного по-другому. Он не предлагает исключать выбросы из анализа, что подразумевается в этом ответе. Он только спрашивает, как провести анализ чувствительности, «чтобы увидеть, изменит ли это результаты». Хотя рекомендации , данные здесь о том , чтобы удалить выбросы в порядке - и явно будет иметь некоторое влияние на последующие решения , если оказывается, что анализ является чувствительным к выбросам - это , кажется, не служат интересам ор в данном случае.
whuber
1

Я хотел бы подчеркнуть то, что было сказано в другом ответе и комментариях (я думаю, что ответы @Peter Flom точны и что EdM в курсе всех измерений).

Анализ данных - это то, что нужно делать осторожно. Вы должны быть очень хорошо осведомлены о значении выбросов в вашем контакте. Например, если предположить, что ваша процедура измерения была выполнена «правильно» (я имею в виду, что вы не вводили отклонения, ваше оборудование было откалибровано, человек, читающий инструмент, сделал это правильно и т. Д. И т. Д.), Некоторые выбросы могут сказать что-то интересное и иногда очень важно.

Вот вымышленный пример, пожалуйста, будьте снисходительны (укажите их в комментариях), если он не на 100% прав по всем аспектам. ;)

Скажите, что кто-то проверяет эффект применения определенного количества вещества для некоторых культур (популяций) бактерий. Теперь, «в целом», эффект состоит в том, чтобы стабилизировать количество бактерий в популяции, но среди различных культур есть некоторые выбросы.

Представьте, что все ваши выбросы указывают на ситуации, когда все бактерии мертвы. Или что все выбросы представляют культуры, в которых популяции бактерий вышли из-под контроля.

Я хочу отметить, что природа ваших воспринимаемых выбросов может быть значимой, и последствия каждого из них различны. Вы можете оказаться в ситуации, когда недопустимо, чтобы количество бактерий увеличивалось или уменьшалось.

Конечно, если вы заметили, что некоторые группы населения были истреблены этим веществом, вы, вероятно, провели бы расследование по этому вопросу, поскольку это легко узнаваемая ситуация. Но не все явления легко обнаружить.

Чтобы подвести итог, понятие выбросов несколько произвольно, но их значения множественны и имеют разное значение. Надеюсь, это заставит вас задуматься над этим вопросом ... :)

Doombot
источник