Я искал способ удалить выбросы из набора данных, и я нашел этот вопрос .
В некоторых комментариях и ответах на этот вопрос, однако, люди упоминали, что удаление выбросов из данных является плохой практикой.
В моем наборе данных у меня есть несколько выбросов, которые, скорее всего, связаны только с ошибками измерения. Даже если некоторых из них нет, я не могу проверить это в каждом конкретном случае, потому что данных слишком много. Является ли это статистически достоверным, чем просто удалить выбросы? Или, если нет, что может быть другое решение?
Если я просто оставлю эти точки там, они влияют, например, на среднее значение таким образом, который не отражает реальность (потому что большинство из них в любом случае являются ошибками).
РЕДАКТИРОВАТЬ: я работаю с данными проводимости кожи. Большинство экстремальных значений связаны с такими артефактами, как кто-то тянет за провода.
РЕДАКТИРОВАТЬ 2: Мой основной интерес в анализе данных, чтобы определить, есть ли разница между двумя группами
Ответы:
Я не рекомендую исключать какие-либо выбросы в основном анализе (если вы действительно не уверены, что они ошибаются). Вы можете сделать это в анализе чувствительности, и сравнить результаты двух анализов. В науке часто вы открываете новые вещи именно тогда, когда сосредотачиваетесь на таких выбросах.
Чтобы уточнить, просто подумайте об открытии Флемингом пенициллина, основанном на случайном загрязнении его экспериментов с плесенью:
http://www.abpischools.org.uk/page/modules/infectiousdiseases_timeline/timeline6.cfm?coSiteNavigation_allTopic=1
Если посмотреть на прошлое или настоящее, обнаружение выбросов часто используется для направления инноваций в биомедицинских науках. Смотрите, например, следующие статьи (с некоторыми подходящими кодами R):
http://www.la-press.com/a-comparison-of-methods-for-data-driven-cancer-outlier-discovery-and-a-article-a2599-abstract?article_id=2599
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3394880/
http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0102678
Наконец, если у вас есть разумные основания для исключения некоторых данных, вы можете сделать это, предпочтительно в анализе чувствительности, а не в первичном. Например, вы можете исключить все значения, которые не являются биологически правдоподобными (например, температура 48 градусов по Цельсию у септического пациента). Точно так же вы можете исключить все первые и последние измерения для любого пациента, чтобы минимизировать артефакты движения. Тем не менее, обратите внимание, что если вы делаете это не по назначению (не основываясь на заранее заданных критериях), это рискует равносильно массированию данных.
источник
Один из вариантов - исключить выбросы, но, по-моему, это то, что вам следует делать, только если вы можете спорить (почти с уверенностью), почему такие точки недействительны (например, сломалось измерительное оборудование, метод измерения по какой-то причине был ненадежным, ...). Например, при измерениях в частотной области DC часто отбрасывают, так как многие различные термины влияют на DC, довольно часто не связанные с явлением, которое вы пытаетесь наблюдать.
Проблема с удалением выбросов состоит в том, что для определения того, какие точки являются выбросами, необходимо иметь хорошую модель того, что является или не является «хорошими данными». Если вы не уверены в модели (какие факторы должны быть включены, какую структуру имеет модель, каковы предположения относительно шума, ...), то вы не можете быть уверены в своих выбросах. Эти выбросы могут быть просто образцами, которые пытаются сказать вам, что ваша модель неверна. Другими словами: удаление выбросов усилит вашу (неправильную!) Модель, вместо того, чтобы позволить вам получать новые идеи!
Другой вариант - использовать надежную статистику. Например, среднее значение и стандартное отклонение чувствительны к выбросам, другие показатели «местоположение» и «разброс» более устойчивы. Например, вместо среднего используйте медиану. Вместо стандартного отклонения используйте межквартильный диапазон. Вместо стандартной регрессии наименьших квадратов вы можете использовать надежную регрессию. Все эти надежные методы так или иначе ослабляют выбросы, но обычно они не удаляют данные выбросов полностью (то есть, хорошо).
источник
Думал добавить предостерегающую историю об удалении выбросов:
Помните проблему с дырой в полярном озоновом слое? Был спутник, который был выведен на орбиту над полюсом специально для измерения концентрации озона. В течение нескольких лет после обработки данных со спутника сообщалось, что полярный озон присутствовал на нормальных уровнях, хотя другие источники ясно показали, что озон отсутствует. Наконец кто-то вернулся, чтобы проверить спутниковое программное обеспечение. Оказалось, что кто-то написал код, чтобы проверить, находится ли необработанное измерение в ожидаемом диапазоне относительно типичного исторического уровня, и предположить, что любое измерение за пределами диапазона было всего лишь «всплеском» (то есть выбросом) инструмента, автоматически исправляя значение . К счастью, они также записали необработанные измерения; проверив их, они увидели, что об этой дыре сообщалось все время.
источник
«Выброс» - это удобный термин для сбора данных, которые не соответствуют тому, как вы ожидаете, чтобы ваш процесс выглядел, чтобы исключить их из анализа.
Я бы предложил никогда (будьте осторожны позже) удалять выбросы. Я имею в виду статистический контроль процессов, поэтому часто имею дело с большими объемами автоматически генерируемых данных временных рядов, которые обрабатываются с использованием графика выполнения / графика с подвижной рамкой / и т.д. в зависимости от данных и распределения.
Особенность выбросов заключается в том, что они всегда будут предоставлять информацию о вашем «процессе». Часто то, что вы рассматриваете как один процесс, на самом деле является множеством процессов, и оно гораздо сложнее, чем вы думаете.
Используя пример в вашем вопросе, я бы предположил, что может быть несколько «процессов». будут изменения из-за ...
Все эти процессы приведут к дополнительным изменениям в данных и, вероятно, сместят среднее значение и изменят форму распределения. Многие из них вы не сможете разделить на отдельные процессы.
Итак, переходя к идее удаления точек данных как «выбросов» ... Я бы удалил точки данных только тогда, когда я определенно могу отнести их к определенному «процессу», который я не хочу включать в свой анализ. Затем вам нужно убедиться, что причины неучтения записаны как часть вашего анализа, так что это очевидно. Не принимайте атрибуцию, это ключевой момент для создания дополнительных заметок посредством наблюдения во время сбора данных.
Я бы оспорил ваше утверждение «потому что большинство из них в любом случае являются ошибками», поскольку они не являются ошибками, а просто частью другого процесса, который вы определили в своих измерениях как отличающийся.
В вашем примере я думаю, что разумно исключить точки данных, которые вы можете отнести к отдельному процессу, который вы не хотите анализировать.
источник
Если вы удаляете выбросы, в большинстве случаев вам необходимо задокументировать, что вы делаете и почему. Если это для научного доклада или для целей регулирования, это может привести к тому, что ваша окончательная статистика будет обесценена и / или отклонена.
Лучшее решение состоит в том, чтобы определить, когда вы думаете, что получаете плохие данные (например, когда люди тянут провода), затем определить, когда люди тянут провода, и получить данные по этой причине. Это, вероятно, также приведет к тому, что некоторые «хорошие» точки данных будут отброшены, но теперь у вас есть «реальная» причина пометить и дисконтировать эти точки данных в конце сбора, а не в конце анализа. Пока вы делаете это чисто и прозрачно, гораздо более вероятно, что это будет приемлемо для третьих сторон. Если вы удалите точки данных, относящиеся к вытянутым проводам, и все равно получите выбросы, то вероятный вывод состоит в том, что вытянутые провода не являются (единственной) проблемой - дальнейшая проблема может быть связана с вашим проектом эксперимента или вашей теорией.
Один из первых экспериментов, которые моя мама провела, возвращаясь в университет, чтобы закончить ее бакалавриат, был тем, где студентам дали «плохую» теорию о том, как работает процесс, а затем сказали запустить эксперимент. Учащиеся, которые удалили или изменили полученные «плохие» данные, не смогли выполнить задание. Те, кто правильно сообщил, что их данные были не согласны с результатами, предсказанными (плохой) теорией, прошли. Задача задания состояла в том, чтобы научить студентов не «фиксировать» (фальсифицировать) свои данные, когда они не соответствовали ожиданиям.
Резюме: если вы генерируете неверные данные, то исправьте эксперимент, а не данные.
источник
Это моральная дилемма наверняка. С одной стороны, почему вы должны позволить нескольким подозрительным точкам данных испортить соответствие вашей модели массиву данных? С другой стороны, удаление наблюдений, которые не согласуются с концепцией реальности вашей модели, является своего рода цензурой. По мнению @ Egon, эти выбросы могут пытаться рассказать вам что-то об этой реальности.
В выступлении статистика Стива МакИчерна он определил выбросы как «[не репрезентативные для изучаемого явления.]» С этой точки зрения, если вы чувствуете, что эти подозрительные данные не отражают явления проводимости кожи, которые вы пытаетесь изучить , может быть, они не относятся к анализу. Или, если им позволено остаться, следует использовать метод, который ограничивает их влияние. В той же презентации MacEachern привел примеры надежных методов, и я помню, что в тех немногих примерах классические методы с удаленными выбросами всегда соответствовали тщательному анализу с включенными выбросами. Лично я склонен работать с классическими техниками, которые мне наиболее удобны, и жить с моральной неопределенностью удаленности.
источник
Если я проведу случайную выборку из 100 человек, и одним из этих людей окажется Билл Гейтс, то, насколько я могу судить, Билл Гейтс представляет 1/100-ю часть населения.
Среднее значение говорит мне, что средний доход от лотереи составляет 0 долларов.
источник
Конечно, вы должны удалить выбросы, так как по определению они не следуют распределению под пристальным вниманием и являются паразитическим явлением.
Реальный вопрос заключается в том, «как я могу надежно обнаружить выбросы»!
источник