В чем разница между Outlier и Anomaly в контексте машинного обучения. Я понимаю, что оба они относятся к одному и тому же.
outliers
terminology
anomaly-detection
user3282512
источник
источник
Ответы:
Два термина являются синонимами в соответствии с:
Цитата со страницы 1:
Жирный текст не является частью исходного текста.
Бесплатно скачать PDF книги доступны от автора здесь.
источник
Неприличный ответ:
Выброс: значение, которое вы предсказуемо находите в своих данных и которое указывает на то, что ваша модель не работает должным образом
Аномалия: значение, которое, несмотря на все шансы, обнаруженные в ваших данных, указывает на то, что ваша модель работает правильно
Более серьезный, менее загадочный ответ:
Концепция выбросов начинается с вопроса построения модели, которая делает предположения о данных. Выбросы часто являются признаками того, что модель не описывает данные должным образом, и поэтому мы должны ставить под сомнение результаты нашей модели или качество наших данных.
Концепция аномалий начинается за пределами теоретического мира и внутри прикладного мира: мы хотим искать в наших данных необычное поведение, иногда мотивируемое тем фактом, что мы заинтересованы в поиске поведения, которое кто-то пытается скрыть (например, вирус в Эл. адрес). Проблема в том, что, поскольку люди пытаются скрыть, что они делают, мы не знаем, что искать. Поэтому мы берем набор «хороших» данных и решаем, что все, что мы находим в нашем новом наборе данных, который не выглядит «хорошим», является аномалией и стоит нашего времени, чтобы проверить более подробно. Часто поиск аномалий означает поиск выбросов в вашем новом наборе данных. Но обратите внимание, что эти значения могут быть очень распространены в вашем новом наборе данных, несмотря на то, что они редки в вашем старом наборе данных!
Таким образом, эти две концепции очень похожи с точки зрения статистики, стоящей за ними (то есть необычных значений для вашей подобранной модели), но приходят к идее с разных точек зрения. Кроме того, когда мы говорим о выбросах, мы обычно подразумеваем необычную точку данных в данных, используемых для соответствия нашей модели , где аномалия обычно подразумевается как необычная точка данных в наборе данных за пределами данных, используемых для соответствия нашей модели .
Примечание: этот ответ основан на том, что я видел часто используемые два термина, а не формальные определения. Пользовательский опыт может отличаться.
источник
Аномалия - это результат, который невозможно объяснить с учетом базового распределения (это невозможно, если наши предположения верны). Выброс - маловероятное событие, учитывая базовое распределение (невероятность).
источник
Термины в основном используются взаимозаменяемо. «Выражение» относится к чему-то, лежащему вне нормы, поэтому оно является «аномальным». Но у меня есть предположение, что «выброс» обычно используется для очень редких наблюдений. В статистике при нормальном распределении вы рассматривали бы три сигмы как выбросы. То есть 99,7% ваших объектов должны быть "нормальными". «Аномалия» используется гораздо более либерально. Если на вашем сайте внезапно появляются миллионы посетителей, это не редкие посетители. Однако внезапное увеличение посетителей все еще является «аномальным», тогда как каждый отдельный посетитель не является «посторонним».
Возможно, это было в этой статье, где я видел, как обсуждались эти различия, но я, к сожалению, не могу получить к ним доступ прямо сейчас.
источник
Просто для того, чтобы мутить воду дальше, в климатологической аномалии просто подразумевается разница между значением и средним значением или отклонение:
см. например
Это вполне может рассматриваться как внешнее машинное обучение, но люди, интересующиеся этим вопросом, могут быть заинтересованы в этом.
источник
Аномалия может быть одной точкой данных, а также общей тенденцией или поведением, наблюдаемым в данных после того, как модель уже построена или сформировано понимание процесса генерирования данных. Вы сталкиваетесь с аномалиями, потому что система начинает вести себя по-другому, или вы ищете такие точки данных, потому что вы хотите получать информацию, когда происходит событие, во время которого ваша модель недействительна. Вы можете заботиться о наблюдении любого аномального поведения в амплитудах океанских волн не потому, что хотите отбросить эти точки данных и построить лучшую модель, а потому, что вы хотите знать, когда может произойти цунами.
источник
Хороший вопрос. Тем не менее, поиск в Google по «разнице между выбросами и сайтом аномалий: .edu» показывает, что между этими двумя терминами нет теоретической разницы. Они используются взаимозаменяемо в литературе.
источник