Можно ли удалять выбросы из данных?

33

Я искал способ удалить выбросы из набора данных, и я нашел этот вопрос .

В некоторых комментариях и ответах на этот вопрос, однако, люди упоминали, что удаление выбросов из данных является плохой практикой.

В моем наборе данных у меня есть несколько выбросов, которые, скорее всего, связаны только с ошибками измерения. Даже если некоторых из них нет, я не могу проверить это в каждом конкретном случае, потому что данных слишком много. Является ли это статистически достоверным, чем просто удалить выбросы? Или, если нет, что может быть другое решение?

Если я просто оставлю эти точки там, они влияют, например, на среднее значение таким образом, который не отражает реальность (потому что большинство из них в любом случае являются ошибками).

РЕДАКТИРОВАТЬ: я работаю с данными проводимости кожи. Большинство экстремальных значений связаны с такими артефактами, как кто-то тянет за провода.

РЕДАКТИРОВАТЬ 2: Мой основной интерес в анализе данных, чтобы определить, есть ли разница между двумя группами

Sininho
источник
3
И что ты хочешь делать? Сводка данных? Прогнозный анализ? Визуализация данных? Доказать, что между двумя группами нет (нет) существенной разницы? Как и при любой очистке данных, общего ответа нет.
Петр Мигдал
5
Я инженер, который работает с большим количеством статистики. Это был отказ от ответственности и признание, что означает, что я должен доставлять продукты. Нам разрешено только убрать полностью приписанные «плохие» очки. Можете ли вы доказать это от кого-то, кто дергает за провод? Если вы получаете несколько преднамеренных мер, вы можете связать и группировать там. Затем вы можете разделить данные в кластере (тянуть против не тянуть), и это больше не о выбросах. Если вы не можете доказать, в чем причина, вы должны (должны) сохранить ее. Это говорит о вариации, и это большой кусок анализа. Вы не можете избавиться от этого, если вам это не нравится.
EngrStudent - Восстановить Монику
4
Я думаю, что вы начинаете не с того конца. Первый вопрос: как вы определяете выбросы в первую очередь?
user603
5
Вместо того, чтобы произвольно удалять произвольно идентифицированные выбросы, вам может быть лучше рассмотреть что-то вроде: «Так как у меня есть загрязнение от таких вопросов, как люди, тянущие за провода, какие методологии я могу использовать, которые не сильно пострадали от такого загрязнения?»
Glen_b

Ответы:

26

Я не рекомендую исключать какие-либо выбросы в основном анализе (если вы действительно не уверены, что они ошибаются). Вы можете сделать это в анализе чувствительности, и сравнить результаты двух анализов. В науке часто вы открываете новые вещи именно тогда, когда сосредотачиваетесь на таких выбросах.

Чтобы уточнить, просто подумайте об открытии Флемингом пенициллина, основанном на случайном загрязнении его экспериментов с плесенью:

http://www.abpischools.org.uk/page/modules/infectiousdiseases_timeline/timeline6.cfm?coSiteNavigation_allTopic=1

Если посмотреть на прошлое или настоящее, обнаружение выбросов часто используется для направления инноваций в биомедицинских науках. Смотрите, например, следующие статьи (с некоторыми подходящими кодами R):

http://www.la-press.com/a-comparison-of-methods-for-data-driven-cancer-outlier-discovery-and-a-article-a2599-abstract?article_id=2599

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3394880/

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0102678

Наконец, если у вас есть разумные основания для исключения некоторых данных, вы можете сделать это, предпочтительно в анализе чувствительности, а не в первичном. Например, вы можете исключить все значения, которые не являются биологически правдоподобными (например, температура 48 градусов по Цельсию у септического пациента). Точно так же вы можете исключить все первые и последние измерения для любого пациента, чтобы минимизировать артефакты движения. Тем не менее, обратите внимание, что если вы делаете это не по назначению (не основываясь на заранее заданных критериях), это рискует равносильно массированию данных.

Joe_74
источник
5
Согласитесь, но я нахожу этот ответ как-то кратким, чтобы поднять его. Может быть, вы могли бы привести проработанный пример или показать, почему и как можно обнаружить новые вещи, сосредоточившись на выбросах? Это может быть не так очевидно на первый взгляд.
Тим
26

Один из вариантов - исключить выбросы, но, по-моему, это то, что вам следует делать, только если вы можете спорить (почти с уверенностью), почему такие точки недействительны (например, сломалось измерительное оборудование, метод измерения по какой-то причине был ненадежным, ...). Например, при измерениях в частотной области DC часто отбрасывают, так как многие различные термины влияют на DC, довольно часто не связанные с явлением, которое вы пытаетесь наблюдать.

Проблема с удалением выбросов состоит в том, что для определения того, какие точки являются выбросами, необходимо иметь хорошую модель того, что является или не является «хорошими данными». Если вы не уверены в модели (какие факторы должны быть включены, какую структуру имеет модель, каковы предположения относительно шума, ...), то вы не можете быть уверены в своих выбросах. Эти выбросы могут быть просто образцами, которые пытаются сказать вам, что ваша модель неверна. Другими словами: удаление выбросов усилит вашу (неправильную!) Модель, вместо того, чтобы позволить вам получать новые идеи!

Другой вариант - использовать надежную статистику. Например, среднее значение и стандартное отклонение чувствительны к выбросам, другие показатели «местоположение» и «разброс» более устойчивы. Например, вместо среднего используйте медиану. Вместо стандартного отклонения используйте межквартильный диапазон. Вместо стандартной регрессии наименьших квадратов вы можете использовать надежную регрессию. Все эти надежные методы так или иначе ослабляют выбросы, но обычно они не удаляют данные выбросов полностью (то есть, хорошо).

Эгон
источник
5
Отличный ответ. Большинство людей не понимают, что не каждый метод подходит для каждого типа данных . Сосредоточение на среднем для данных, взятых с выбросами, является одним из неудачных результатов. Чем больше звонков для пробуждения они получают от таких ответов, тем лучше для всех.
Румчо
16

Думал добавить предостерегающую историю об удалении выбросов:

Помните проблему с дырой в полярном озоновом слое? Был спутник, который был выведен на орбиту над полюсом специально для измерения концентрации озона. В течение нескольких лет после обработки данных со спутника сообщалось, что полярный озон присутствовал на нормальных уровнях, хотя другие источники ясно показали, что озон отсутствует. Наконец кто-то вернулся, чтобы проверить спутниковое программное обеспечение. Оказалось, что кто-то написал код, чтобы проверить, находится ли необработанное измерение в ожидаемом диапазоне относительно типичного исторического уровня, и предположить, что любое измерение за пределами диапазона было всего лишь «всплеском» (то есть выбросом) инструмента, автоматически исправляя значение . К счастью, они также записали необработанные измерения; проверив их, они увидели, что об этой дыре сообщалось все время.

PMar
источник
12
Было бы хорошо включить ссылку на инцидент : почему они не обнаружили явление ранее? К сожалению, программное обеспечение для анализа данных TOMS было запрограммировано так, чтобы помечать и откладывать точки данных, которые значительно отклонялись от ожидаемых измерений, поэтому первоначальные измерения, которые должны были вызывать сигналы тревоги, просто игнорировались. Короче говоря, команда TOMS не смогла обнаружить истощение озонового слоя несколькими годами ранее, потому что оно было гораздо более серьезным, чем ожидали ученые.
Джонни
3
Это отличная история. и один многократно повторяется, но для меня math.uni-augsburg.de/stochastik/pukelsheim/1990c.pdf убедительно идентифицирует его как миф, основанный на недоразумении. Обратите внимание, что, поскольку есть два полюса, «полярный озоновый слой» нуждается в переписывании.
Ник Кокс
3
Смотрите также авторитетный аккаунт Christie. М. 2001. Озоновый слой. Перспектива философии науки. Кембридж: Кембридж UP
Ник Кокс
7

«Выброс» - это удобный термин для сбора данных, которые не соответствуют тому, как вы ожидаете, чтобы ваш процесс выглядел, чтобы исключить их из анализа.

Я бы предложил никогда (будьте осторожны позже) удалять выбросы. Я имею в виду статистический контроль процессов, поэтому часто имею дело с большими объемами автоматически генерируемых данных временных рядов, которые обрабатываются с использованием графика выполнения / графика с подвижной рамкой / и т.д. в зависимости от данных и распределения.

Особенность выбросов заключается в том, что они всегда будут предоставлять информацию о вашем «процессе». Часто то, что вы рассматриваете как один процесс, на самом деле является множеством процессов, и оно гораздо сложнее, чем вы думаете.

Используя пример в вашем вопросе, я бы предположил, что может быть несколько «процессов». будут изменения из-за ...

  • образцы, взятые одним проводящим устройством
  • образцы, взятые между устройствами проводимости
  • когда субъект снял зонд
  • когда предмет сдвинулся
  • различия в коже одного человека по всему телу или в разные дни отбора проб (волосы, влага, масло и т. д.)
  • различия между предметами
  • обучение человека, проводящего измерения и различия между сотрудниками

Все эти процессы приведут к дополнительным изменениям в данных и, вероятно, сместят среднее значение и изменят форму распределения. Многие из них вы не сможете разделить на отдельные процессы.

Итак, переходя к идее удаления точек данных как «выбросов» ... Я бы удалил точки данных только тогда, когда я определенно могу отнести их к определенному «процессу», который я не хочу включать в свой анализ. Затем вам нужно убедиться, что причины неучтения записаны как часть вашего анализа, так что это очевидно. Не принимайте атрибуцию, это ключевой момент для создания дополнительных заметок посредством наблюдения во время сбора данных.

Я бы оспорил ваше утверждение «потому что большинство из них в любом случае являются ошибками», поскольку они не являются ошибками, а просто частью другого процесса, который вы определили в своих измерениях как отличающийся.

В вашем примере я думаю, что разумно исключить точки данных, которые вы можете отнести к отдельному процессу, который вы не хотите анализировать.

Маркус Д
источник
6

Если вы удаляете выбросы, в большинстве случаев вам необходимо задокументировать, что вы делаете и почему. Если это для научного доклада или для целей регулирования, это может привести к тому, что ваша окончательная статистика будет обесценена и / или отклонена.

Лучшее решение состоит в том, чтобы определить, когда вы думаете, что получаете плохие данные (например, когда люди тянут провода), затем определить, когда люди тянут провода, и получить данные по этой причине. Это, вероятно, также приведет к тому, что некоторые «хорошие» точки данных будут отброшены, но теперь у вас есть «реальная» причина пометить и дисконтировать эти точки данных в конце сбора, а не в конце анализа. Пока вы делаете это чисто и прозрачно, гораздо более вероятно, что это будет приемлемо для третьих сторон. Если вы удалите точки данных, относящиеся к вытянутым проводам, и все равно получите выбросы, то вероятный вывод состоит в том, что вытянутые провода не являются (единственной) проблемой - дальнейшая проблема может быть связана с вашим проектом эксперимента или вашей теорией.

Один из первых экспериментов, которые моя мама провела, возвращаясь в университет, чтобы закончить ее бакалавриат, был тем, где студентам дали «плохую» теорию о том, как работает процесс, а затем сказали запустить эксперимент. Учащиеся, которые удалили или изменили полученные «плохие» данные, не смогли выполнить задание. Те, кто правильно сообщил, что их данные были не согласны с результатами, предсказанными (плохой) теорией, прошли. Задача задания состояла в том, чтобы научить студентов не «фиксировать» (фальсифицировать) свои данные, когда они не соответствовали ожиданиям.

Резюме: если вы генерируете неверные данные, то исправьте эксперимент, а не данные.

darkonc
источник
5

Это моральная дилемма наверняка. С одной стороны, почему вы должны позволить нескольким подозрительным точкам данных испортить соответствие вашей модели массиву данных? С другой стороны, удаление наблюдений, которые не согласуются с концепцией реальности вашей модели, является своего рода цензурой. По мнению @ Egon, эти выбросы могут пытаться рассказать вам что-то об этой реальности.

В выступлении статистика Стива МакИчерна он определил выбросы как «[не репрезентативные для изучаемого явления.]» С этой точки зрения, если вы чувствуете, что эти подозрительные данные не отражают явления проводимости кожи, которые вы пытаетесь изучить , может быть, они не относятся к анализу. Или, если им позволено остаться, следует использовать метод, который ограничивает их влияние. В той же презентации MacEachern привел примеры надежных методов, и я помню, что в тех немногих примерах классические методы с удаленными выбросами всегда соответствовали тщательному анализу с включенными выбросами. Лично я склонен работать с классическими техниками, которые мне наиболее удобны, и жить с моральной неопределенностью удаленности.

Бен Огорек
источник
8
В Box, Hunter & Hunter: «Статистика для экспериментаторов» говорится, что в химической промышленности выбросы часто приводят к новым патентам . Вы хотите выбросить свой новый патент?
kjetil b halvorsen
2
Нет, я не хочу пропустить ни одного патента. Но я также не хочу крутить двенадцать циклов, пытаясь заставить мою модель приспосабливаться к «кому-то, дергающему за провода». Это почти наверняка не изучаемое явление. Мне действительно нравится идея выброса как возможности, и одна вещь, которую нужно сказать о прямом удалении, состоит в том, что, по крайней мере, код предоставит документацию об этих удалениях, тогда как в надежных методах выбросы просто как бы сосуществуют с другими точками.
Бен Огорек
2
Вы правы, что конкретные обстоятельства должны быть приняты во внимание. То, что не должно быть сделано, - это применить некоторые не зависящие от контекста «правила» для отклонения выбросов. Таких хороших правил не существует.
kjetil b halvorsen
1
Моя любимая точка зрения о силе контекста иллюстрируется вопросом: "Здоровы ли батончики Snickers?" Что ж, если вы потеряли в лесу три дня и только что нашли несколько на земле, оказывается, они все-таки довольно здоровы. Я чувствую, что популярные ответы здесь говорят нам: «Никогда не ешьте батончик Snickers, если вы не уверены, что умрете, если этого не сделаете».
Бен Огорек
0

Если я проведу случайную выборку из 100 человек, и одним из этих людей окажется Билл Гейтс, то, насколько я могу судить, Билл Гейтс представляет 1/100-ю часть населения.

Среднее значение говорит мне, что средний доход от лотереи составляет 0 долларов.

Adamo
источник
Ничего ненормального, усеченное среднее не подходит для искаженных распределений.
Ив Дауст
-2

Конечно, вы должны удалить выбросы, так как по определению они не следуют распределению под пристальным вниманием и являются паразитическим явлением.

Реальный вопрос заключается в том, «как я могу надежно обнаружить выбросы»!

Ив Дауст
источник
Что, если такое распределение Коши?
AdamO
@AdamO: реальный вопрос остается, конечно.
Ив Дауст
Почему это понижение?
Ив Дауст
3
(-1) потому что я не думаю, что это адекватный вклад, основанный на теории, примере или практике. Что такое «паразитический феномен», но поэтическое понимание данных? Имея дело с артериальным давлением, натрием в моче и неврологическими изображениями, я ежедневно вижу «выбросы», которые являются репрезентативными для рассматриваемой группы населения. Удаление их может быть значительным источником предвзятости. Сказать, что они являются «паразитическим феноменом», наводит на мысль о обманчивой статистической практике.
AdamO
@adam: вы просто выступаете за сохранение внутренностей, с чем я полностью согласен.
Ив Дауст