У меня есть модель прогнозирования, протестированная четырьмя методами, как вы можете видеть на рисунке ниже. Атрибут, который предсказывает модель, находится в диапазоне 0-8.
Вы можете заметить, что во всех методах указаны один выброс верхней границы и три выброса нижней границы . Интересно, уместно ли удалять эти экземпляры из данных? Или это своего рода обман для улучшения модели прогнозирования?
Ответы:
Это почти всегда обман, чтобы удалить наблюдения, чтобы улучшить регрессионную модель. Вы должны отбросить наблюдения только тогда, когда вы действительно думаете, что это на самом деле выбросы.
Например, у вас есть временной ряд от пульсометра, подключенного к вашим умным часам. Если вы посмотрите на серию, легко увидеть, что будут ошибочные наблюдения с показаниями, такими как 300 бит / с. Они должны быть удалены, но не потому, что вы хотите улучшить модель (что бы это ни значило). Это ошибки в чтении, которые не имеют никакого отношения к вашему сердечному ритму.
Однако следует соблюдать осторожность и соотносить ошибки с данными. В моем примере можно утверждать, что у вас есть ошибки, когда монитор сердечного ритма смещается во время упражнений, таких как бег или прыжки. Что сделает эти ошибки коррелированными с частотой сердцебиения. В этом случае необходимо соблюдать осторожность при удалении этих выбросов и ошибок, потому что они не случайны
Я дам вам вымышленный пример того, когда не следует удалять выбросы . Допустим, вы измеряете движение веса на пружине. Если вес невелик относительно силы веса, то вы заметите, что закон Гука работает очень хорошо: где F - сила, k - коэффициент натяжения, а Δ x - положение веса. ,
Теперь, если вы положите очень тяжелый вес или сместите вес слишком сильно, вы начнете видеть отклонения: при достаточно больших смещениях движение будет казаться отклоненным от линейной модели. Таким образом, у вас может возникнуть соблазн удалить выбросы, чтобы улучшить линейную модель. Это не будет хорошей идеей, потому что модель работает не очень хорошо, поскольку закон Гука только приблизительно верен.Δ х
ОБНОВЛЕНИЕ В вашем случае я бы предложил потянуть эти точки данных и посмотреть на них поближе. Может ли это быть поломка лабораторного прибора? Внешние помехи? Дефект образца? и т.п.
Затем попытайтесь определить, можно ли связать присутствие этих выбросов с тем, что вы измеряете, как в приведенном мной примере. Если есть корреляция, то нет простого способа обойти это. Если нет корреляции, вы можете удалить выбросы
источник
It is always a cheating to remove outliers to improve a regression model.
Считаете ли вы сплайновую регрессию обманом ? FWIW, он делает наблюдения с пониженным весом, чтобы улучшить [локальную] регрессионную модель ~Первоначально я хотел опубликовать это как комментарий к другому ответу, но это слишком долго, чтобы соответствовать.
Когда я смотрю на вашу модель, она не обязательно содержит одну большую группу и несколько выбросов. На мой взгляд, он содержит 1 группу среднего размера (от 1 до -1), а затем 6 небольших групп, каждая из которых находится между 2 целыми числами. Вы можете довольно четко видеть, что при достижении целого числа наблюдений на этих частотах становится меньше. Единственная особая точка - 0, где на самом деле не наблюдается заметного снижения наблюдений.
На мой взгляд, стоит рассмотреть, почему этот дистрибутив распространяется так:
Измеряя отдельные человеческие действия, вы всегда будете иметь выбросы. Может быть интересно узнать, почему эти выбросы не соответствуют вашей модели, и как их можно использовать для улучшения будущих итераций вашей модели.
источник
Есть плюсы и минусы в удалении выбросов и построении модели только для «нормального паттерна».
Плюсы: производительность модели лучше. Интуиция заключается в том, что очень сложно использовать ОДНУ модель для захвата как «нормального шаблона», так и «внешнего шаблона». Таким образом, мы удаляем выбросы и говорим, что строим модель только для «нормального паттерна».
Минусы: мы не сможем предсказать выбросы. Другими словами, предположим, что мы запустим нашу модель в производство, из этой модели будут некоторые пропущенные прогнозы.
Я бы предложил удалить выбросы и построить модель, и, если возможно, попытаться построить отдельную модель только для выбросов.
Что касается слова «обман», если вы пишете бумагу и явно указываете, как вы определяете и удаляете выбросы, и упомянутое повышение производительности относится только к чистым данным. Это не обман.
источник
if it is fine to produce no output in production
это то же самое? Итак, если мы начнем использовать нашу модель в реальном приложении, чтобы протестировать переменную результата и использовать прогнозируемую оценку в приложении, то было бы неправильно удалить выбросы (особенно, если их много, как вы упомянули)? Это то, что вы имели в виду?Я считаю, что разумно удалять выбросы только тогда, когда для этого есть веская качественная причина. Под этим я подразумеваю, что имеется информация о том, что другая переменная, которой нет в модели, влияет на выбросы наблюдений. Затем можно удалить выброс или добавить дополнительные переменные.
Я обнаружил, что, когда у меня есть наблюдения выбросов в моем наборе данных, изучая, чтобы определить, почему существует выброс, я узнаю больше о моих данных и возможных других моделях, которые следует рассмотреть.
источник
Я даже не уверен, что они являются "выбросами". Возможно, вы захотите сделать нормальный график вероятности. Являются ли они данными или остатками от подбора модели?
источник