Масштабируемый выброс / обнаружение аномалий

10

Я пытаюсь настроить инфраструктуру больших данных, используя Hadoop, Hive, Elastic Search (среди прочих), и я хотел бы запустить некоторые алгоритмы для определенных наборов данных. Мне бы хотелось, чтобы сами алгоритмы были масштабируемыми, поэтому это исключает использование таких инструментов, как Weka, R или даже RHadoop. Библиотека Apache Mahout , по-видимому, является хорошим вариантом и содержит алгоритмы для задач регрессии и кластеризации .

То, что я изо всех сил пытаюсь найти, является решением для обнаружения аномалий или выбросов.

Поскольку Mahout имеет скрытые марковские модели и различные методы кластеризации (включая K-средние), мне было интересно, можно ли построить модель для обнаружения выбросов во временных рядах, используя любое из этого. Я был бы признателен, если бы кто-то опытный в этом мог посоветовать мне

  1. если это возможно, и в случае, если это
  2. как это сделать, плюс
  3. оценка прилагаемых усилий и
  4. Точность / проблемы этого подхода.
doublebyte
источник
1
Это слишком расплывчато, чтобы ответить. Временные ряды слишком разные, чтобы просто бросить на них k-средних и получить что-нибудь полезное. Это сильно зависит от ваших данных.
Выйти - Anony-Mousse
1
Для обнаружения выбросов взгляните на алгоритмы в ELKI. Это, кажется, самая полная коллекция обнаружения выбросов.
ВЫЙТИ - Anony-Mousse
В более новые версии Elasticsearch встроено обнаружение аномалий временных рядов (я думаю, вам придется купить X-Pack). Я не уверен, какие алгоритмы они используют, но, возможно, стоит изучить готовое решение.
Том

Ответы:

7

Я бы взглянул на алгоритм t-digest . Он был объединен с mahout, а также частью некоторых других библиотек для потоковой передачи больших данных. Подробнее об этом алгоритме и об обнаружении аномалий больших данных можно узнать в следующих источниках:

  1. Практическая книга по обнаружению аномалий в машинном обучении.
  2. Вебинар: обнаружение аномалий, когда вы не знаете, что вам нужно найти
  3. Обнаружение аномалий в Elasticsearch .
  4. Борьба с мошенничеством в миллиард долларов с использованием обнаружения аномалий: подход к обработке сигналов с использованием данных Argyle на платформе данных Hortonworks с Accumulo
prudenko
источник
Как t-дайджест сравнивается с алгоритмом p-квадрата?
Дэвид Маркс
Спасибо за ответ: это простая модель для вычисления экстремальных квантилей, и я думаю, что она будет соответствовать моим потребностям. Однако для более сложных временных рядов, которые не имеют почти стационарного распределения, этот подход может потерпеть неудачу, и именно тогда я думаю, что нам понадобится что-то адаптивное, такое как цепь Маркова.
двухбайтовое
0

Вы можете сослаться на мой ответ, связанный с h2o R или методом обнаружения аномалий Python в stackexchange , поскольку он также масштабируемый.

0xF
источник