Временные ряды и обнаружение аномалий

15

Я хотел бы настроить алгоритм обнаружения аномалии во временных рядах, и я планирую использовать для этого кластеризацию.

  • Почему я должен использовать матрицу расстояний для кластеризации, а не необработанные данные временных рядов ?,

  • Для обнаружения аномалии я буду использовать кластеризацию на основе плотности, алгоритм как DBscan, так будет ли это работать в этом случае? Есть ли онлайн-версия для потоковой передачи данных?

  • Я хотел бы обнаружить аномалию до того, как она произойдет, поэтому будет ли правильным использование алгоритма обнаружения тренда (ARIMA)?

napsterockoeur
источник
Это правильно написано DBSCAN. Это аббревиатура. Я не уверен, что вы пытаетесь сделать. Обнаружение аномалий в пределах временного ряда или общего аномального временного ряда.
ВЫЙТИ - Anony-Mousse
Да, DBSCAN, точнее! То, что я пытаюсь сделать, - это аномалия обнаружения онлайн в наборе данных временного ряда! так! Любой запрос ? С
наилучшими
Онлайн как в растущих временных сериях или как в добавляемых дополнительных сериях? Опять же, они очень разные, и вам нужно четко понимать, что вы имеете в виду.
ВЫЙТИ - Anony-Mousse
Под онлайн (потоком) я подразумеваю растущий временной ряд, поступающий от датчика ... каждый час получается набор данных (вектор) ..
napsterockoeur

Ответы:

12

Что касается вашего первого вопроса, я бы рекомендовал вам прочитать эту знаменитую статью (Кластеризация подпоследовательностей временных рядов не имеет смысла), прежде чем выполнять кластеризацию по временным рядам. Это ясно написано и иллюстрирует многие подводные камни, которые вы хотите избежать.

gui11aume
источник
6

Обнаружение аномалий или «Обнаружение вмешательства» было предложено GCTiao и другими. Наука - это поиск повторяющихся паттернов. Обнаружение аномалий - это выявление значений, которые не повторяют повторяющихся паттернов. Мы узнаем от Ньютона: «Кто знает пути природы, легче заметит ее отклонения, и, с другой стороны, тот, кто знает ее отклонения, будет более точно описывать ее пути». Каждый изучает правила, наблюдая, когда текущие правила терпят неудачу. Рассмотрим временные ряды 1,9,1,9,1,9,5,9. Чтобы выявить аномалию, нужно иметь образец. «5» - такая же аномалия, как и «14». Для идентификации шаблона просто используйте ARIMA, и в этом случае «аномалия» становится очевидной. Попробуйте другое программное обеспечение / подходы и посмотрите, какой из них предлагает модель ARIMA порядка 1,0, 0 с коэффициентом -1,0. Используйте Google / процедуры поиска, чтобы найти «автоматическое арима» или «автоматическое обнаружение вмешательства». Вы можете быть разочарованы бесплатными вещами, так как это может стоить того, за что вы платите. Самостоятельное написание может быть интересным, если у вас большой опыт работы с временными рядами и пара лет, которые нужно тратить. Существуют серьезные ограничения для методов, основанных на расстоянии.http://www3.ntu.edu.sg/SCE/pakdd2006/tutorial/chawla_tutorial_pakddslides.pdf

IrishStat
источник
Большое спасибо, сэр IrishStat, я полностью согласен с вами, что существуют большие ограничения в методах, основанных на расстоянии, и я думаю, что и другие методы тоже, поэтому я тестирую метод на основе плотности, я видел много выступающих Об обнаружении аномалий временного ряда, как, например, исследования NASA, университеты ... и т. д., но небольшой прогресс для конкретных проблем с данными. И недавно я нашел хорошее бесплатное программное обеспечение для обнаружения выбросов: MOA of Weka! Вы проверяли это раньше? Это программное обеспечение с открытым исходным кодом, я пытаюсь использовать его для разработки и интеграции моего алгоритма небольшой аномалии обнаружения,
napsterockoeur
о: к вашему сведению: я обрабатываю потоковые данные
napsterockoeur