Обнаружение выбросов с использованием регрессии

11

Может ли регрессия использоваться для внешнего обнаружения. Я понимаю, что существуют способы улучшить регрессионную модель путем устранения выбросов. Но основная цель здесь не в том, чтобы подогнать регрессионную модель, а в том, чтобы выяснить, кто использует регрессию.

user48567
источник
Когда соответствие улучшается после подгонки модели без издержек, есть свидетельства того, что это крайняя ценность. Это может быть спорным, если у вас много данных, потому что подгонка будет относительно менее улучшена.
Роман Луштрик
@ RomanLuštrik: это очень экзотическое определение выбросов. Например, это не согласуется с представлением о выбросах, использованным в ответе Glen_b (или в этом отношении с определением выбросов, использованным в учебнике по этому предмету, например, «Надежная статистика: теория и методы»). Хотите процитировать источник в поддержку вашего определения?
user603
Я не могу привести ни одной ссылки. Вы, конечно, правы, что такое улучшение в форме? Улучшение может быть очень субъективным вопросом, и его следует использовать в качестве ориентира, а не предельного значения для роботов, и оценивать в каждом конкретном случае.
Роман Луштрик
Итеративно переоцененные наименьшие квадраты - это надежный метод регрессии, обычно используемый для поиска выбросов в данных.
whuber

Ответы:

13

Наилучшим вариантом использования регрессии для выявления выбросов является использование надежной регрессии.

На обычную регрессию выбросы могут повлиять двумя способами:

Во-первых, экстремальный выброс в направлении y при значениях x около может повлиять на подгонку в этой области так же, как выброс может повлиять на среднее значение.x¯

Во-вторых, «отдаленное» наблюдение в x-пространстве является влиятельным наблюдением - оно может подтянуть линию линии к нему. Если он достаточно далеко, линия пройдет через влиятельную точку:

введите описание изображения здесь

На левом графике есть очень влиятельная точка, которая сильно оттягивает линию от большого объема данных. На правом графике он был перемещен еще дальше - и теперь линия проходит через точку. Когда значение x является таким экстремальным, когда вы перемещаете эту точку вверх и вниз, линия движется вместе с ней, проходя через среднее значение других точек и через одну влиятельную точку.

Влиятельная точка, которая полностью согласуется с остальными данными, может быть не такой большой проблемой, но та, которая далека от линии, проходящей через остальные данные, будет соответствовать линии, а не данным.

Если вы посмотрите на правый график, красная линия - линия регрессии наименьших квадратов - вообще не показывает крайнюю точку как выброс - ее остаток равен 0. Вместо этого большие остатки от линии наименьших квадратов находятся в основная часть данных!

Это означает, что вы можете полностью пропустить выброс .

Еще хуже то, что при множественной регрессии выброс в x-пространстве может не выглядеть особенно необычно для любой отдельной x-переменной. Если есть вероятность такой точки, использовать регрессию наименьших квадратов потенциально очень рискованно.

Робастная регрессия

Если вы подбираете устойчивую линию, в частности одну устойчивую к влиятельным выбросам, например зеленую линию на втором графике, тогда выброс имеет очень большой остаток.

В этом случае у вас есть некоторая надежда определить выбросы - это будут точки, которые в некотором смысле не находятся близко к линии.


Удаление выбросов

Вы, конечно, можете использовать надежную регрессию, чтобы идентифицировать и тем самым удалить выбросы.

Но если у вас есть надежная регрессионная подгонка, которая уже не сильно пострадала от выбросов, вам не обязательно удалять выбросы - у вас уже есть модель, которая хорошо подходит.

Glen_b - Восстановить Монику
источник
1
«Вы не обязательно должны удалять выбросы» иногда, целью исследования является выявление выбросов (например, идентификация мошенничества)
user603
1
@ user603 Я согласен, довольно часто это так - но обнаружение удаления
Glen_b
3
(+1) Хороший ответ, но жаль, что вы не упомянули какие-либо методы надежной регрессии. Например, как была построена зеленая линия на правом участке (и почему вы предпочитаете этот алгоритм другим)? Возможно, эта ссылка может быть полезна здесь: быстрая линейная регрессия, устойчивая к выбросам - возможно, лучшая тема в CV, обсуждающая устойчивую регрессию.
амеба
-2

Может ли регрессия использоваться для обнаружения выбросов.

Да. Этот ответ и ответ Glen_b обращаются к этому.

Основная цель здесь не в том, чтобы подогнать регрессионную модель, а выяснить, кто из них использует регрессию

Основываясь на комментариях Романа Люстрика, здесь есть эвристика для нахождения выбросов с использованием (множественной линейной) регрессии.

Допустим, у вас есть размер выборки . Затем сделайте следующее:n

  1. Подберите регрессионную модель на примерах. Запишите его остаточную сумму квадратов ошибки .n rtotal

  2. Для каждого образца i подгоните регрессионную модель к n-1 примерам (исключая пример i) и запишите соответствующую остаточную сумму квадратов ошибки .ri

  3. Теперь сравните с для каждого , если , то является кандидатом-выбросом.rirtotiri<<rtotali

Отложив эти возможные точки выброса в сторону, мы можем повторить все упражнение снова с уменьшенной выборкой. В алгоритме мы выбираем примеры данных, которые плохо влияют на соответствие регрессии (что является одним из способов обозначить пример как выброс).

Theja
источник
1
Вы пробовали эту стратегию на наборе данных, показанном здесь ? Более фундаментально, ваша стратегия сводится к утверждению, что выбросы могут быть надежно найдены по результатам цепочки совпадений, минимизирующих функцию выпуклых потерь, которая является известной ошибкой, когда имеется более одного выброса (это ссылки показывают это для связанной проблемы нахождения многовариантных выбросов, но результаты применимы и к регрессии).
user603
Я счастлив удалить мой ответ. Но, во-первых, я не понимаю как ссылки, которые вы даете, так и более того, я не уверен, почему они делают мой ответ неверным. Где «стратегия» - первый реф? Можете ли вы указать конкретный ответ там? Какая страница и строка второго упоминания имеет отношение здесь и обсуждает «заблуждение»?
Theja
1
Извините, я только мог вернуться к этому сейчас. Раздел с комментариями немного короток, чтобы привести пример, и я не буду использовать раздел «Ответ», так как это не вопрос ОП. Тем не менее, у вас было время попробовать свою методологию на данных, с которыми я связан?
user603