Как учесть влияние праздников в прогнозе

12

У меня довольно предсказуемые ежедневные временные ряды с еженедельной сезонностью. Я могу придумать прогнозы, которые кажутся довольно точными (подтвержденными перекрестной проверкой), когда нет выходных. Однако, когда есть праздники, у меня возникают следующие проблемы:

  1. В моем прогнозе я получаю ненулевые числа для праздников, хотя все исторические праздники равны 0. Это действительно не главная проблема. Вопрос в том ...
  2. Поскольку обработка, которая не происходит в праздничные дни, «перетекает» в дни, следующие за праздничными днями, простая фиктивная переменная не обрезает ее, поскольку эти выбросы кажутся краткосрочными инновационными. Если бы не было еженедельной сезонности, я, возможно, мог бы дать оценку для распределения необработанных данных о празднике в течение пяти или около того дней после праздника (как предложено в разделе Как создать переменные, отражающие опережающее и запаздывающее влияние праздников / календарные эффекты в анализе временных рядов? ). Однако распределение «переполнения» зависит от дня недели, в который наступает праздник, и от того, является ли праздник Рождеством или Днем благодарения, когда заказы размещаются по более низкой ставке, чем в остальное время года.

Вот несколько снимков из моей перекрестной проверки, которые показывают прогноз (синий) и фактический (красный) результат для праздников, которые появляются в разные дни недели:

введите описание изображения здесь

Я также беспокоюсь о том, что влияние Рождества зависит от дня недели, когда оно выпадает, и у меня есть только шесть или более лет исторических данных.

Есть ли у кого-нибудь предложения о том, как бороться с этими типами инновационных выбросов в контексте прогнозирования? (К сожалению, я не могу поделиться какими-либо данными)

Юлия Маддалена
источник
1
Я тоже очень заинтересован в этом.
EngrStudent
2
Если вы не можете опубликовать свои данные, то, возможно, вы могли бы опубликовать подготовленные данные, которые похожи на ваши данные? Во многих случаях это облегчает более актуальные ответы.
Тим
1
Масштабировать данные. Модель будет такой же (только масштабированная). Вы даже можете изменить масштаб прогнозов до исходной метрики.
Том Рейли

Ответы:

1

Не могли бы вы создать фиктивную переменную для выходных, одну для выходных + 1 и одну для выходных + 2, и установить для них только 1, если они приходятся на будний день?

Что касается Дня благодарения и Рождества, введение отдельных фиктивных переменных в эти праздничные дни представляется вам наихудшим вариантом (поскольку у вас есть данные только за шесть лет). В определенной степени это может быть вашим единственным вариантом - люди просто ведут себя иначе в эти праздники, чем, скажем, в четвертое июля (и если вы изучаете, например, модели розничных продаж, то вам определенно придется жить с этими Будучи "особыми" праздниками и определенно хотел бы проанализировать их отдельно). Однако, возможно, следующие идеи полезны для вас:

  • День благодарения. Разве не должно облегчать тот факт, что он всегда приходится на один и тот же день недели (четверг)? Т.е. манекен на День благодарения может быть работоспособным даже в шестилетнем наборе данных, потому что схема дня недели всегда будет одинаковой.
  • Рождество. Из вашего графика мне кажется, что основная проблема заключается в том, что эффект длится дольше, чем после других праздников - если вы определите «Рождество» как канун Рождества (24 декабря), то это будет потому, что многие люди также останутся дома на Рождество (25 декабря) (и даже День подарков (26 декабря) в некоторых местах). Я подумаю еще немного об этом.

Надеюсь, это поможет.

Candamir
источник