Разница между выбросами и выбросами

10

Я наткнулся на термин inlier в показателе LOF (Local Outlier Factor), я знаком с термином выбросов (ну в основном лжи - экземпляры, которые не ведут себя как остальные экземпляры).

Что означает «Inliers» в контексте обнаружения аномалий? и как это связано с (отличными от) выбросами?

Anton.P
источник

Ответы:

8

Это область, в которой есть некоторая непоследовательность в терминологии, что приводит к путанице в некоторых статистических дискуссиях. Понятие " внутренности"«обычно используется для обозначения значения данных, которое является ошибочным (то есть подверженным ошибке измерения), но тем не менее находится во« внутреннем »распределении правильно измеренных значений. Согласно этому определению, значение имеет два аспекта: (1 ) оно находится внутри соответствующего распределения значений, и (2) это ошибочное значение. Наоборот, соответствующее понятие «выброс» обычно используется для ссылки на любое значение данных, которое находится далеко в хвостах распределение, но без какого-либо аспекта определения, предполагающего, что оно ошибочно. Эта терминология приводит к прискорбной несогласованности, где «inlier» является ошибочной точкой данных (по определению), но «outlier» не обязательно является ошибочной точкой данных. Следовательно, в соответствии с этой терминологией, объединение "внутренностей" и "выбросов"не соответствует ни всем данным, ни даже всем ошибочным данным.

Работа с выбросами: я обсуждал вопрос о выбросах в других вопросах здесь и здесь , но для удобства я повторю некоторые из этих замечаний здесь. Выбросы - это точки, удаленные от массы других точек в распределении, и диагностика «выброса» проводится путем сравнения точки данных с некоторой предполагаемой формой распределения. Хотя случайные выбросы могут иногда вызываться ошибкой измерения, диагностика выбросов также может происходить, когда данные соответствуют распределению с высоким эксцессом (т. Е. Толстым хвостом), но аналитик сравнивает точки данных с предполагаемой формой распределения с низким эксцессом (например, нормальное распределение).

Пометка «выбросов» в тестах выбросов действительно означает, что у используемого распределения модели недостаточно жирных хвостов для точного представления наблюдаемых данных. Это может быть связано с тем, что некоторые данные содержат ошибку измерения, или это может быть просто из распределения с толстыми хвостами. Если нет каких-либо причин полагать, что отклонение от предполагаемой модельной формы является свидетельством ошибки измерения (что потребовало бы теоретической основы для предположения о распределении), присутствие выбросов обычно означает, что вам следует изменить свою модель, чтобы использовать распределение с более толстым хвосты. По сути, трудно различить ошибку измерения и высокий эксцесс, который является частью основного распределения.

Работа с поглотителями (что на самом деле обычно подразумевает не иметь дело с ними): если у вас нет источника внешней информации, указывающей на погрешность измерения, по сути невозможно определить «поглотители». По определению, это точки данных, которые находятся во «внутреннем» распределении, где происходит большинство других данных. Следовательно, это не обнаружено тестами, которые ищут данные, которые являются "отклонением" от других точек данных. (В некоторых случаях вы можете обнаружить «выбросы», которые, кажется, находятся внутри распределения, но на самом деле являются «выбросами», если принимать их в отношении более сложного представления распределения. В этом случае точка на самом деле является выбросом,

В некоторых редких случаях у вас может быть внешний источник информации, который идентифицирует подмножество ваших данных как подверженное ошибке измерения (например, если вы проводите большое обследование и обнаруживаете, что один из ваших геодезистов только что составлял свои данные ). В этом случае любые точки данных в этом подмножестве, которые находятся внутри распределения, являются «внутренними частями» и известны из внешней информации как подверженные ошибке измерения. В этом случае вы, как правило, удаляете все данные, о которых известно, что они ошибочны, даже если некоторые из них являются «внутренностями», которые находятся внутри дистрибутива, где вы ожидаете, что они будут. Дело в том, что точка данных может быть ошибочной, даже если она не находится в хвостах распределения.

Бен - Восстановить Монику
источник