ТЛ; др
- Каков рекомендуемый способ обработки
discrete
данных при обнаружении аномалий? - Каков рекомендуемый способ обработки
categorical
данных при обнаружении аномалий? - Этот ответ предлагает использовать дискретные данные для фильтрации результатов.
- Возможно, замените значение категории шансом наблюдения перктата?
вступление
Это моя первая публикация здесь, поэтому, пожалуйста, если что-то не кажется технически правильным, ни в форматировании, ни в использовании правильных определений, мне интересно знать, что нужно было использовать вместо этого.
Onwards.
Недавно я принимал участие в классе машинного обучения Эндрю Нг
Для обнаружения аномалий нас учили определять, каковы параметры нормального / гауссова распределения для данного признака / переменной, в наборе данных, а затем определять вероятность выбранного набора значений обучающего примера / наблюдения с учетом этого конкретного Гауссово распределение, а затем взятие произведения вероятностей признаков.
метод
Выберите особенности / переменные, которые, по нашему мнению, объясняют рассматриваемое действие: { x 1 , x 2 , … , x i }
Подберите параметры гауссианы для каждой функции: σ2=1
Для каждого обучающего примера вычислите: p ( x ) = n ∏ j = 1 p ( x j ; μ j , σ 2 j )
Затем мы помечаем как аномалию ( ), учитывая: y = { 1
Это дает нам метод, с помощью которого можно определить, требует ли пример дальнейшей проверки.
Мои вопросы)
Это кажется нормальным для непрерывных переменных / функций, но дискретные данные не рассматриваются.
Вопросы: (обновлено: 2015-11-24)
Есть ли другой метод, который учитывает то, о чем я здесь спрашиваю, чтобы я мог продолжить изучение / изучение?- Каков рекомендуемый способ обработки
discrete
данных при обнаружении аномалий? - Каков рекомендуемый способ обработки
categorical
данных при обнаружении аномалий?
Изменить: 2017-05-03
- Этот ответ предлагает использовать дискретные данные для фильтрации результатов.
- Возможно, замените значение категории шансом наблюдения перктата?
Ответы:
В целом, как для дискретных *, так и для категориальных функций, этот метод не особенно подходит для анализа выбросов. Поскольку нет никакой величины, связанной с категориальными предикторами, мы работаем с:
Обратите внимание, что ни одно из этих качеств не может быть проанализировано изолированно, как того требует ваш метод Гаусса. Вместо этого нам нужен метод, который контекстуализирует категориальные особенности и учитывает корреляционный характер данных.
Вот некоторые методы для категориальных и смешанных атрибутных данных, основанные на анализе выбросов от Aggarwal:
* Дискретные функции могут быть обработаны примерно в вашем методе Гаусса. При правильных условиях признак может быть хорошо аппроксимирован нормальным распределением (например, биноминальная случайная величина с npq> 3). Если нет, обрабатывайте их как порядковые номера, описанные выше.
** Это похоже на вашу идею «заменить значение категории процентным шансом наблюдения»
источник
Класс Andrew Ng обрабатывает «дискретные» данные так же, как он обрабатывает «недискретные» данные. Все, что нам нужно сделать, это эмпирически оценить параметры нормального распределения, и это может быть идеально сделано для дискретных данных.
Если задуматься, то машинное обучение всегда имеет дело с дискретными данными: число точек данных не бесконечно, а число битов, обрабатываемых компьютерами, не бесконечно.
Если дискретные точки данных можно сравнивать между собой, то нет принципиальных различий для методов машинного обучения, когда речь идет, скажем, о длине: 1,15 фута, 1,34 фута, 3,4 фута.
или сколько веток на дереве: 1 2 3 5
Вы можете суммировать и усреднять числа с плавающей запятой или целые числа точно так же.
Теперь к категориальным данным. Категориальные данные не могут быть сравнены (автомобиль против мотоцикла против лодки). Как мы справимся с этим?
Количество категорий должно быть не менее двух, чтобы иметь смысл, иначе какой смысл в постоянной характеристике? В случае двух категорий мы можем представить функцию категории как двоичную функцию {0, 1}. 0 и 1 могут быть использованы для математики, поэтому смотрите выше.
Если количество категорий (K) равно [3 .. inf], мы сопоставляем наш единственный признак с K двоичными взаимоисключающими признаками. Например, категория «мотоцикл» становится комбинацией двоичных функций {IsCar: 0, IsMotorcycle: 1, IsBoat: 0}, точка перехода становится {IsCar: 0, IsMotorcycle: 0, IsBoat: 1} и так далее.
Мы можем оценить эмпирические параметры распределения из этих новых функций. У нас просто будет больше измерений, вот и все.
источник