Я пытаюсь настроить инфраструктуру больших данных, используя Hadoop, Hive, Elastic Search (среди прочих), и я хотел бы запустить некоторые алгоритмы для определенных наборов данных. Мне бы хотелось, чтобы сами алгоритмы были масштабируемыми, поэтому это исключает использование таких инструментов, как Weka, R или даже RHadoop. Библиотека Apache Mahout , по-видимому, является хорошим вариантом и содержит алгоритмы для задач регрессии и кластеризации .
То, что я изо всех сил пытаюсь найти, является решением для обнаружения аномалий или выбросов.
Поскольку Mahout имеет скрытые марковские модели и различные методы кластеризации (включая K-средние), мне было интересно, можно ли построить модель для обнаружения выбросов во временных рядах, используя любое из этого. Я был бы признателен, если бы кто-то опытный в этом мог посоветовать мне
- если это возможно, и в случае, если это
- как это сделать, плюс
- оценка прилагаемых усилий и
- Точность / проблемы этого подхода.
источник
Ответы:
Я бы взглянул на алгоритм t-digest . Он был объединен с mahout, а также частью некоторых других библиотек для потоковой передачи больших данных. Подробнее об этом алгоритме и об обнаружении аномалий больших данных можно узнать в следующих источниках:
источник
Вы можете сослаться на мой ответ, связанный с h2o R или методом обнаружения аномалий Python в stackexchange , поскольку он также масштабируемый.
источник