Анализ временных рядов и машинное обучение?

10

Просто общий вопрос. Если у вас есть данные временных рядов, когда лучше использовать методы временных рядов (иначе, ARCH, GARCH и т. Д.), А не методы машинного / статистического обучения (KNN, регрессия)? Если есть аналогичный вопрос, который существует на перекрестном утверждении, пожалуйста, укажите мне на него - посмотрел и не смог найти.

Nagy
источник
1
Соответствующий: cs.stackexchange.com/questions/13937/…
Антон Тарасенко

Ответы:

9

Типичные методы машинного обучения предполагают, что ваши данные независимы и одинаково распределены, что не относится к данным временных рядов. Поэтому они находятся в невыгодном положении по сравнению с методами временных рядов с точки зрения точности. Примеры этого см. В предыдущих вопросах. Упорядочение временных рядов для машинного обучения и случайного леса переоснащается .

Том Минка
источник
Спасибо за ваш ответ. В дополнение к этому, кажется, что машинное обучение больше заботится о нахождении связей в данных, тогда как анализ временных рядов больше касается правильной идентификации причин данных - то есть того, как стохастические факторы влияют на них. ты согласен с этим?
Надя
4
Нет, я не согласен с этим резюме.
Том Минка
4

Фрэнсис Диболд недавно опубликовал в своем блоге «ML и метрики VI: ключевое различие между эконометрикой ML и TS» . Я предоставляю сокращенную версию этого, так что вся заслуга идет к нему. (Выделение жирным шрифтом - мое.)

Татистическое машинное обучение (ML) и эконометрика временных рядов (TS) имеют много общего. Но есть и интересная разница: акцент ML на гибком непараметрическом моделировании условно-средней нелинейности не играет большой роли в TS. <...>

[T] здесь очень мало доказательств важной условно-средней нелинейности в ковариационно-стационарной (детерминированной, десезонизированной) динамике большинства экономических временных рядов. <...> Действительно, я могу думать только об одном типе условно-средней нелинейности, которая неоднократно становилась важной для (по крайней мере, некоторых) экономических временных рядов: динамике марковского переключения в стиле Гамильтона.

[Конечно, в комнате есть нелинейный слон: динамика типа GARCH в английском стиле. Они чрезвычайно важны в финансовой эконометрике, а иногда и в макроэкономике, но они касаются условных отклонений, а не условных средств.]

Таким образом, в TS есть только две важные нелинейные модели, и только одна из них говорит об условно-средней динамике. И что очень важно, они оба очень параметрические, тесно привязанные к специализированным характеристикам экономических и финансовых данных.

Таким образом, вывод таков:

ML подчеркивает аппроксимацию нелинейных условно-средних функций в очень гибкой непараметрической форме. Это оказывается вдвойне ненужным в TS: нет особой условно-средней нелинейности, о которой стоит беспокоиться, и, когда она есть, она обычно носит узкоспециализированный характер, наилучшим образом аппроксимируемый высокоспециализированным (узкопараметрическим) способом ,

Я рекомендую прочитать весь оригинальный пост здесь .

Ричард Харди
источник
+1. Я полностью согласен с этим ответом. Типичные методы ML характеризуются непараметрическим моделированием и имеют очень смягченные допущения, в то время как модели ARMA являются «строго параметрическими».
Digio
2

Как заметил @Tom Minka, большинство методов ML предполагают ввод данных. Хотя есть несколько решений:

  1. Можно использовать все прошлые выборки временных рядов в системе «Память» как один вектор признаков, то есть: x = [x (t-1), x (t-2), ... x (tM)]. Однако у этого есть 2 проблемы: 1) в зависимости от вашего биннинга, у вас может быть огромный вектор характеристик 2 - некоторые методы требуют, чтобы функции в векторе функций были независимыми, что здесь не так.

  2. Существует много методов ML, которые специально разработаны для таких данных временных рядов, например, скрытые марковские модели, которые очень успешно используются для обнаружения приступов, обработки речи и т. Д.

  3. Наконец, подход, который я выбрал, заключается в использовании методов «выделения признаков» для преобразования задачи динамической регрессии (в которой есть элемент времени) в статическую. Например, подход с использованием режима основной динамики (PDM) отображает входной прошедший вектор признаков ([x (t-1), x (t-2), ... x (tM)]) на статический ([v ( 1), v (2), .. v (L)]), свернув прошлое с системно-линейным линейным набором фильтров (PDM), см. Marmarelis, 2004 г. book or Marmarelis, Vasilis Z. «Методология моделирования для нелинейных физиологических систем». «. Летопись биомедицинской инженерии 25.2 (1997): 239-251 ...

DankMasterDan
источник