Модель временного ряда ансамбля

13

Мне нужно автоматизировать прогнозирование временных рядов, и я заранее не знаю особенностей этих рядов (сезонность, тренд, шум и т. Д.).

Моя цель не в том, чтобы получить лучшую модель для каждой серии, а в том, чтобы избежать довольно плохих моделей. Другими словами, каждый раз получать небольшие ошибки - не проблема, но время от времени получать большие ошибки.

Я думал, что смогу достичь этого, комбинируя модели, рассчитанные с использованием различных методов.

То есть, хотя ARIMA будет лучшим подходом для конкретной серии, он может быть не лучшим для другой серии; то же самое для экспоненциального сглаживания.

Однако, если я объединю одну модель из каждой методики, даже если одна модель не очень хороша, другая приблизит оценку к реальной стоимости.

Общеизвестно, что ARIMA лучше работает для долговременных рядов с хорошим поведением, в то время как экспоненциальное сглаживание выделяется для кратковременных шумных рядов.

  • Моя идея состоит в том, чтобы объединить модели, сгенерированные из обоих методов, чтобы получить более надежные прогнозы, имеет ли смысл?

Там может быть много способов объединить эти модели.

  • Если это хороший подход, как мне их объединить?

Можно использовать простое среднее значение прогнозов, но, возможно, я мог бы получить более точные прогнозы, если бы взвесил среднее значение в соответствии с некоторым показателем качества модели.

  • Какой будет обработка дисперсии при объединении моделей?
Жоао Даниэль
источник
Ваши идеи звучат великолепно, но я не уверен в использовании автоматически подходящих моделей ARIMA. Возможно, для одномерных рядов ... Общепринято считать, что Холт-Уинтерс довольно надежно используется автоматически, так что это может быть вашей базой для сравнений между методами вне выборки.
Scortchi - Восстановить Монику
@ Scortchi Я забыл упомянуть, что все серии одномерные! ;) Я согласен, что Holt-Winters действительно хорошо работает при использовании автоматически, но я намерен получить еще одно мнение от другой модели, чтобы избежать случаев, когда прогнозы не так хороши. Иногда HW демонстрирует странное трендовое поведение.
Жоао Даниэль
1
Даже в одномерном случае я изо всех сил пытаюсь представить себе автоматическую процедуру - есть тенденция (стохастическая или детерминированная), возможные преобразования, сезонность (мультипликативная или аддитивная), и я считаю, что для получения модели я использую много предварительных знаний о том, что было бы разумно для того, что конкретный ряд представляет в действительности. Тем не менее, доказательство того, что пудинг находится в еде - я просто хотел сказать, что не забывайте делать сравнения вне образца с простыми методами - так что удачи в этом.
Scortchi - Восстановить Монику

Ответы:

15

Объединение прогнозов - отличная идея. (Я думаю, что не будет преувеличением сказать, что это одна из немногих вещей, с которыми согласны академические прогнозисты.)

Я случайно написал статью, в которой рассматривал различные способы взвешивания прогнозов при их объединении: http://www.sciencedirect.com/science/article/pii/S0169207010001032 В принципе, использование весов (Акаике) не улучшало последовательно комбинации над простыми или усеченными / winsorized средствами или медианами, поэтому я лично дважды подумал бы, прежде чем внедрять сложную процедуру, которая может не принести определенной выгоды (напомним, однако, что комбинации последовательно превосходили выбор отдельных методов по информационным критериям). Конечно, это может зависеть от конкретных временных рядов, которые у вас есть.

Я смотрел на объединение интервалов предсказания в статье выше, но не на объединение дисперсии как таковой. Кажется, я вспоминаю статью, недавно появившуюся в IJF с таким фокусом, поэтому вы можете искать «объединение» или «комбинацию» в прошлых выпусках IJF.

Несколько других работ, которые рассматривали объединение прогнозов, здесь (с 1989 года, но обзор) и здесь и здесь (также рассматриваются плотности) и здесь и здесь, Многие из них отмечают, что до сих пор плохо понимают, почему комбинации прогнозов часто превосходят отдельные выбранные модели. Второй по последнему документу доклад о конкурсе прогнозов М3; Одним из их основных выводов было (номер (3) на стр. 458), что «Точность комбинации различных методов в среднем превосходит конкретные комбинируемые методы и хорошо справляется с другими методами». Последняя из этих статей показывает, что комбинации не обязательно работают лучше, чем отдельные модели, но что они могут значительно снизить риск катастрофического отказа (что является одной из ваших целей). Больше литературы следует легко найти в Международном журнале прогнозирования , журнале прогнозирования. и для более специфических применений в литературе по эконометрике или цепочке поставок.

Стефан Коласса
источник
1
Отличная точка зрения о совмещении моделей! Ваш ответ был очень конструктивным!
João Daniel
@ Стефан Коласса, не могли бы вы прокомментировать объединение прямых и обратных предикторов, как в методе Бурга?
Денис
@denis: я не знаком ни с прямыми, ни с обратными предикторами, ни с методом Бурга, извините ... хотя я бы предположил, что объединение прогнозов / предсказаний (или ансамблевые методы) обычно будет полезным.
Стефан Коласса
Привет Стефан, отличная статья. Похоже, что сайт журнала изменился, и больше не представляется возможным загрузить ваш код R с основного сайта. Хостинг сейчас на другом сайте?
Ян
@Ian: у вас может не быть доступа к нему, если вы не подписаны. Отправьте мне письмо ( найдите мой адрес здесь ), я вышлю сценарии. Дайте мне несколько дней, чтобы выкопать их.
Стефан Коласса
1

Почему бы не указать это дальше? Я не думаю, что какая-то модель, которую вы бы изготовили, могла бы быть лучше или лучше, чем конкретный выбор.

С учетом вышесказанного, если вы можете немного сузить свой выбор до тех, для которых вы можете проверить, и ввод данных может быть стандартизирован, то почему бы не написать автоматизированную процедуру тестирования в R?

Допустим, вы решили, что ваши данные попадут в диапазон, который будет оцениваться пятью моделями, а также одним «запасным вариантом». Скажем, вы можете охарактеризовать вход с помощью различных тестов. Затем просто напишите алгоритм R (или подобную программу), который запускает это для вас. Это работает, если вы можете создать блок-схему какой модели для запуска на основе тестовых данных, то есть если любая точка дерева решений является двоичной.

Если это не вариант, потому что решение не может быть двоичным, я предлагаю вам внедрить систему оценки, основанную на применимых тестах, и запустить некоторые смоделированные «экстремальные случаи» данные в вашей таблице, чтобы увидеть, являются ли результаты тем, что вы ищете.

Очевидно, что вы можете комбинировать эти вещи, например, проверка на нестационарность может дать определенное да-нет, в то время как другие атрибуты могут попадать в диапазон, такой как мультиколлинеарность.
Вы можете сначала нарисовать это на бумаге, а затем собрать, смоделировать с известными дистрибутивами, которые вы ожидаете получить.

Затем просто запускайте R-программу каждый раз, когда поступают новые данные. Я не вижу необходимости сочетать несколько моделей с вычислительными возможностями, которые вы, скорее всего, имеете под рукой.

IMA
источник
Хорошая идея - сузить выбор, например, не использовать несезонные методы, если данные явно сезонные. Но даже тогда я бы сказал, что усреднение нескольких сезонных моделей (аддитивная или мультипликативная сезонность, с или без тренда и т. Д.) В среднем улучшит точность прогноза. По крайней мере, это впечатление, которое я испытываю от небольшого воздействия сообщества прогнозистов, а также M3 и подобных конкурсов прогнозирования.
Стефан Коласса
У вас есть дополнительные документы по этому вопросу? Я имею в виду, что это будет простой, но актуальный предмет исследования. Очень интересная идея, хотя просто интуитивно я не согласен, что она обязательно будет лучше, чем динамическая сетка моделей.
IMA
Хорошая точка зрения. Я отредактировал свой ответ, добавив в него дополнительный абзац с дополнительными указателями литературы. Я согласен, что это просто и актуально, и до сих пор плохо понимают, почему усреднение прогноза обычно повышает точность.
Стефан Коласса
Да, я имею в виду, что вы можете смоделировать все виды проблем распределения и атаковать их вычислительно и фундаментально. Спасибо за документы, очень интересно.
IMA
0

Есть хорошие и простые формулы для объединения двух методов прогнозирования, вы просто взвешиваете их, умножая первый на a, а другой на (1 - a), где a определяется путем минимизации дисперсии этого комбинированного прогноза. Поскольку вы знаете ошибки обоих методов прогнозирования, вы можете рассчитать ошибки комбинации, которая будет зависеть от «а». Расчет прост, когда среднее значение каждого метода равно 0. Для объединения более двух методов формулы все еще «просты» в том смысле, что вы можете рассчитать их аналитически «вручную» или также использовать опцию Solver из EXCEL.

Хуан Хосе Иллингворт
источник
Можете ли вы дать ссылку на этот метод.
horaceT