Применение вейвлетов к алгоритмам обнаружения аномалий на основе временных рядов

25

Эндрю Мур ( Andrew Moore) начал работать над учебными пособиями по сбору статистических данных (настоятельно рекомендуется всем, кто впервые пойдет в эту область). Я начал с чтения этого чрезвычайно интересного PDF-документа под названием «Вводный обзор алгоритмов обнаружения аномалий на основе временных рядов», в котором Мур отслеживает многие из методов, использованных при создании алгоритма для обнаружения вспышек заболеваний. В середине слайдов на странице 27 он перечисляет ряд других «современных методов», используемых для обнаружения вспышек. Первый из перечисленных вейвлетов . Wikipeida описывает вейвлет как

Волнообразное колебание с амплитудой, которая начинается с нуля, увеличивается, а затем уменьшается до нуля. Обычно это можно представить как «короткое колебание»

но не описывает их применение к статистике, и мои поиски в Google дают весьма академические статьи, в которых предполагается, что вейвлеты связаны со статистикой или полными книгами по этому вопросу.

Я хотел бы получить общее представление о том, как вейвлеты применяются для обнаружения аномалий временных рядов, во многом так, как Мур иллюстрирует другие методы в своем уроке. Может кто-нибудь дать объяснение, как работают методы обнаружения с использованием вейвлетов, или ссылку на понятную статью по этому вопросу?

time-series outliers signal-processing wavelet Орен Хизкия
источник

19

Вейвлеты полезны для обнаружения особенностей в сигнале (см., Например, статью здесь (см. Иллюстрацию на рисунке 3) и ссылки, упомянутые в этой статье. Я полагаю, что особенности могут иногда быть аномалией?

Идея здесь заключается в том, что непрерывное вейвлет-преобразование (CWT) имеет линии максимумов, которые распространяются вдоль частот, т.е. чем длиннее линия, тем выше сингулярность. Смотрите рисунок 3 в статье, чтобы понять, что я имею в виду! обратите внимание, что есть бесплатный код Matlab, связанный с этой статьей, он должен быть здесь .

Кроме того, я могу дать вам некоторые эвристические подробности, почему вейвлет-преобразование ( DWT ) DISCRETE (предыдущий пример представляет интерес для статистики (извините, не исчерпывающий):

Существует широкий класс (реалистичных (пространство Бесова)) сигналов, которые преобразуются в разреженную последовательность с помощью вейвлет-преобразования. ( свойство сжатия )
Широкий класс (квазистационарных) процессов, которые превращаются в последовательность с почти некоррелированными характеристиками ( свойство декорреляции )
Коэффициенты вейвлета содержат информацию, локализованную во времени и по частоте (в разных масштабах). (свойство multi-scale)
Вейвлет-коэффициенты сигнала концентрируются на его особенностях .

Робин Жирар
источник

19

Список в презентации, на которую вы ссылаетесь, кажется мне довольно произвольным, и метод, который будет использоваться, действительно будет зависеть от конкретной проблемы. Однако вы заметите, что он также включает фильтры Калмана , поэтому я подозреваю, что предполагаемое использование - это метод фильтрации. Вейвлет-преобразования, как правило, подпадают под действие обработки сигнала и часто используются в качестве этапа предварительной обработки с очень зашумленными данными. Примером является « Многофункциональное обнаружение аномалий». статья « » Чена и Чжана (см. Ниже). Подход заключается в проведении анализа другого спектра, а не исходного шумового ряда.

Вейвлеты часто сравнивают с непрерывным временным преобразованием Фурье, хотя их преимущество заключается в их локализации как по времени, так и по частоте. Вейвлеты могут использоваться как для сжатия сигнала, так и для сглаживания (вейвлет-усадка). В конечном счете, может иметь смысл применить дополнительную статистику после применения вейвлет-преобразования (например, взглянув на функцию автокорреляции). Еще одним аспектом вейвлетов, который может быть полезен для обнаружения аномалий, является эффект локализации: а именно, разрыв будет влиять только на вейвлет, который находится рядом с ним (в отличие от преобразования Фурье). Одним из применений этого является нахождение локально стационарных временных рядов (с использованием LSW).

У Гая Нэйсона есть хорошая книга, которую я бы порекомендовал, если вы хотите углубиться в практическое статистическое приложение: « Вейвлет-методы в статистике с R ». Это специально нацелено на применение вейвлетов к статистическому анализу, и он предоставляет множество примеров из реального мира вместе со всем кодом (используя пакет wavethresh ). В книге Нэйсона не говорится конкретно об «обнаружении аномалий», хотя она делает адмиралъную работу по обеспечению общего обзора.

Наконец, статья в Википедии содержит много хороших вводных ссылок, так что стоит подробно остановиться на ней.

Сяо-юнь Чен, Ян-Ян Чжан "Алгоритм обнаружения многомасштабных аномалий, основанный на нечастой структуре временных рядов" Журнал вычислительной и прикладной математики, том 214, выпуск 1 (апрель 2008 г.)
Г. П. Насон " Вейвлет-методы в статистике с R " Springer, 2008

[В качестве примечания: если вы ищете хорошую современную технику для определения точки изменения, я бы предложил попробовать HMM, прежде чем тратить слишком много времени на вейвлет-методы, если у вас нет веских причин использовать вейвлеты в вашей конкретной области. Это основано на моем личном опыте. Есть, конечно, много других нелинейных моделей, которые могут быть рассмотрены, так что это действительно зависит от вашей конкретной проблемы.]

Шейн
источник

1

Мне не ясно, как скрытые модели Маркова используются для обнаружения аномалий, но я бы очень хотел знать. Часть, которая мне особенно непонятна, - это как создать правильный базовый конечный автомат с значимыми вероятностями перехода (если только это не два состояния типа «аномалия» и «не аномалия» с наивной вероятностью перехода между ними).

Джон Робертсон

6

Наиболее часто используемые и реализованные дискретные вейвлет-базисные функции (в отличие от CWT, описанного в ответе Робина) имеют два приятных свойства, которые делают их полезными для обнаружения аномалий:

Они компактно поддерживаются.
Они действуют как полосовые фильтры с полосой пропускания, определяемой их поддержкой.

На практике это означает, что ваше дискретное вейвлет-разложение рассматривает локальные изменения сигнала в различных масштабах и полосах частот. Если у вас есть (например) высокочастотный шум большой величины, наложенный на функцию, которая отображает сдвиг малой величины в течение более длительного периода, вейвлет-преобразование эффективно разделит эти две шкалы и позволит вам увидеть смещение базовой линии, что многие другие техника будет отсутствовать; изменение в этом исходном состоянии может указывать на вспышку заболевания или другое изменение интереса. Во многих отношениях вы можете относиться к самой декомпозиции как к сглаживающему (и была проделана большая работа по эффективной усадке для вейвлет-коэффициентов при непараметрической оценке, см., Например, почти что-нибудь о вейвлетах от Donoho). В отличие от чисто частотных методов, компактная поддержка означает, что они способны обрабатывать нестационарные данные. В отличие от чисто временных методов, они допускают некоторую частотную фильтрацию.

С практической точки зрения, чтобы обнаружить аномалии или точки изменения, вы бы применили к данным дискретное вейвлет-преобразование (возможно, вариант, известный как «Максимальное перекрытие DWT» или «Смещение-инвариант DWT», в зависимости от того, кого вы читаете), и посмотрите на низкочастотных наборах коэффициентов, чтобы увидеть, есть ли у вас значительные сдвиги в базовой линии. Это покажет вам, когда долгосрочные изменения происходят под любым ежедневным шумом. Персиваль и Уолден (см. Ссылки ниже) получают несколько тестов для статистически значимых коэффициентов, которые вы можете использовать, чтобы увидеть, является ли такой сдвиг значительным или нет.

Отличная справочная работа для дискретных вейвлетов - Персиваль и Уолден, «Вейвлет-методы для анализа временных рядов». Хорошей вводной работой является «Введение в вейвлеты и вейвлет-преобразования, учебник для начинающих» Бурруса, Гопинатха и Го. Если вы пришли из инженерного образования, то «Элементы вейвлетов для инженеров и ученых» - хорошее введение с точки зрения обработки сигналов.

(Отредактировано, чтобы включить комментарии Робина)

Богатый
источник

Первое замечание, которое вы упоминаете, в целом неверно, я предлагаю вам прочитать первое предложение главы books.google.fr/… в книге Daubechie. Кроме того, если вы прочитали мой ответ, я уже упоминал о прекрасном свойстве DWT во 2-й части моего ответа ...

Робин Джирард

К первому пункту вы правы. Я должен был сказать «Наиболее часто используемые / реализованные дискретные вейвлет-базисные функции»; Я отредактирую, чтобы отразить это. Во-вторых, вы дали хороший ответ о том, как некоторые CWT (чаще всего вейвлет DOG или связанный вейвлет Рикера; что-то вроде, например, вейвлета Габора не обеспечивает поведение, которое вы описываете) могут обнаруживать аномалии типа сингулярности. Я пытался дать аналогичное описание того, как DWT можно использовать для обнаружения других видов аномалий.

Богатое

Второе замечание, которое вы упомянули, также может быть ложным: поддержка вейвлета (если он компактный) дает информацию о временной локализации вейвлета, а не о частоте локализации.

Робин Жирар

Дискретные вейвлеты - или, по крайней мере, подавляющее большинство из тех, которые реализованы и обычно используются - обычно разрабатываются для того, чтобы иметь полезные частотные свойства при ограничении компактной поддержки. Например, состояние исчезающего момента Добеши более или менее эквивалентно плоскостности в полосе пропускания. Свойства вейвлетов по локализации частоты обычно приводят к тому, что коэффициенты являются разреженными представлениями, и позволяют оценить дисперсию шума в предположении «сигнал + аддитивный нулевой средний шум».

Богатое

Применение вейвлетов к алгоритмам обнаружения аномалий на основе временных рядов

Ответы: