Может ли регрессия использоваться для внешнего обнаружения. Я понимаю, что существуют способы улучшить регрессионную модель путем устранения выбросов. Но основная цель здесь не в том, чтобы подогнать регрессионную модель, а в том, чтобы выяснить, кто использует регрессию.
regression
outliers
user48567
источник
источник
Ответы:
Наилучшим вариантом использования регрессии для выявления выбросов является использование надежной регрессии.
На обычную регрессию выбросы могут повлиять двумя способами:
Во-первых, экстремальный выброс в направлении y при значениях x около может повлиять на подгонку в этой области так же, как выброс может повлиять на среднее значение.x¯
Во-вторых, «отдаленное» наблюдение в x-пространстве является влиятельным наблюдением - оно может подтянуть линию линии к нему. Если он достаточно далеко, линия пройдет через влиятельную точку:
На левом графике есть очень влиятельная точка, которая сильно оттягивает линию от большого объема данных. На правом графике он был перемещен еще дальше - и теперь линия проходит через точку. Когда значение x является таким экстремальным, когда вы перемещаете эту точку вверх и вниз, линия движется вместе с ней, проходя через среднее значение других точек и через одну влиятельную точку.
Влиятельная точка, которая полностью согласуется с остальными данными, может быть не такой большой проблемой, но та, которая далека от линии, проходящей через остальные данные, будет соответствовать линии, а не данным.
Если вы посмотрите на правый график, красная линия - линия регрессии наименьших квадратов - вообще не показывает крайнюю точку как выброс - ее остаток равен 0. Вместо этого большие остатки от линии наименьших квадратов находятся в основная часть данных!
Это означает, что вы можете полностью пропустить выброс .
Еще хуже то, что при множественной регрессии выброс в x-пространстве может не выглядеть особенно необычно для любой отдельной x-переменной. Если есть вероятность такой точки, использовать регрессию наименьших квадратов потенциально очень рискованно.
Робастная регрессия
Если вы подбираете устойчивую линию, в частности одну устойчивую к влиятельным выбросам, например зеленую линию на втором графике, тогда выброс имеет очень большой остаток.
В этом случае у вас есть некоторая надежда определить выбросы - это будут точки, которые в некотором смысле не находятся близко к линии.
Удаление выбросов
Вы, конечно, можете использовать надежную регрессию, чтобы идентифицировать и тем самым удалить выбросы.
Но если у вас есть надежная регрессионная подгонка, которая уже не сильно пострадала от выбросов, вам не обязательно удалять выбросы - у вас уже есть модель, которая хорошо подходит.
источник
Да. Этот ответ и ответ Glen_b обращаются к этому.
Основываясь на комментариях Романа Люстрика, здесь есть эвристика для нахождения выбросов с использованием (множественной линейной) регрессии.
Допустим, у вас есть размер выборки . Затем сделайте следующее:n
Подберите регрессионную модель на примерах. Запишите его остаточную сумму квадратов ошибки .n
rtotal
Для каждого образца i подгоните регрессионную модель к n-1 примерам (исключая пример i) и запишите соответствующую остаточную сумму квадратов ошибки .ri
Теперь сравните с для каждого , если , то является кандидатом-выбросом.ri rtot i ri<<rtotal i
Отложив эти возможные точки выброса в сторону, мы можем повторить все упражнение снова с уменьшенной выборкой. В алгоритме мы выбираем примеры данных, которые плохо влияют на соответствие регрессии (что является одним из способов обозначить пример как выброс).
источник