Я хотел бы настроить алгоритм обнаружения аномалии во временных рядах, и я планирую использовать для этого кластеризацию.
Почему я должен использовать матрицу расстояний для кластеризации, а не необработанные данные временных рядов ?,
Для обнаружения аномалии я буду использовать кластеризацию на основе плотности, алгоритм как DBscan, так будет ли это работать в этом случае? Есть ли онлайн-версия для потоковой передачи данных?
Я хотел бы обнаружить аномалию до того, как она произойдет, поэтому будет ли правильным использование алгоритма обнаружения тренда (ARIMA)?
time-series
clustering
trend
napsterockoeur
источник
источник
Ответы:
Что касается вашего первого вопроса, я бы рекомендовал вам прочитать эту знаменитую статью (Кластеризация подпоследовательностей временных рядов не имеет смысла), прежде чем выполнять кластеризацию по временным рядам. Это ясно написано и иллюстрирует многие подводные камни, которые вы хотите избежать.
источник
Обнаружение аномалий или «Обнаружение вмешательства» было предложено GCTiao и другими. Наука - это поиск повторяющихся паттернов. Обнаружение аномалий - это выявление значений, которые не повторяют повторяющихся паттернов. Мы узнаем от Ньютона: «Кто знает пути природы, легче заметит ее отклонения, и, с другой стороны, тот, кто знает ее отклонения, будет более точно описывать ее пути». Каждый изучает правила, наблюдая, когда текущие правила терпят неудачу. Рассмотрим временные ряды 1,9,1,9,1,9,5,9. Чтобы выявить аномалию, нужно иметь образец. «5» - такая же аномалия, как и «14». Для идентификации шаблона просто используйте ARIMA, и в этом случае «аномалия» становится очевидной. Попробуйте другое программное обеспечение / подходы и посмотрите, какой из них предлагает модель ARIMA порядка 1,0, 0 с коэффициентом -1,0. Используйте Google / процедуры поиска, чтобы найти «автоматическое арима» или «автоматическое обнаружение вмешательства». Вы можете быть разочарованы бесплатными вещами, так как это может стоить того, за что вы платите. Самостоятельное написание может быть интересным, если у вас большой опыт работы с временными рядами и пара лет, которые нужно тратить. Существуют серьезные ограничения для методов, основанных на расстоянии.http://www3.ntu.edu.sg/SCE/pakdd2006/tutorial/chawla_tutorial_pakddslides.pdf
источник