Сезонно скорректированный ежемесячный рост с базовой недельной сезонностью

9

В качестве дополнительного хобби я изучал прогнозирование временных рядов (в частности, с использованием R).

По моим данным, у меня есть количество посещений в день, за каждый день, уходящий почти на 4 года. В этих данных есть несколько четких закономерностей:

  1. Понедельник-пятница имеет много посещений (самый высокий в понедельник / вторник), но значительно меньше в субботу и воскресенье.
  2. Определенные времена года падают (то есть намного меньше посещений вокруг праздников США, лето показывает меньший рост)
  3. Значительный рост из года в год

Было бы неплохо иметь возможность прогнозировать наступающий год на основе этих данных, а также использовать их для сезонной корректировки роста от месяца к месяцу. Главное, что отталкивает меня от ежемесячного просмотра:

  • В определенные месяцы будет больше понедельника / вторника, чем в другие месяцы (и это не всегда соответствует годам). Поэтому месяц, который случается с большим количеством будних дней, необходимо соответствующим образом скорректировать.

Исследование недель также кажется трудным, поскольку системы нумерации недель меняются с 52-53 в зависимости от года, и, похоже, tsэто не справляется.

Я размышляю о том, чтобы взять среднее значение для рабочих дней месяца, но полученная единица немного странная (рост числа посещений в будние дни), и это приведет к удалению данных, которые являются действительными.

Я чувствую, что такого рода данные будут распространены во временных рядах (скажем, например, использование электричества в офисном здании может быть чем-то вроде этого), у кого-нибудь есть какие-либо советы о том, как его моделировать, в частности, в R?

Данные, с которыми я работаю, довольно просты, они начинаются как:

            [,1]
2008-10-05 17607
2008-10-06 36368
2008-10-07 40250
2008-10-08 39631
2008-10-09 40870
2008-10-10 35706
2008-10-11 18245
2008-10-12 23528
2008-10-13 48077
2008-10-14 48500
2008-10-15 49017
2008-10-16 50733
2008-10-17 46909
2008-10-18 22467

и продолжается до сих пор, с общей тенденцией роста, некоторыми провалами в выходные дни в США, а летом рост обычно замедляется.

Кайл Брандт
источник
Другим интересным аспектом данных является то, что есть неожиданные события, которые прерывают общую тенденцию роста на период ~ пару месяцев. Хотя сейчас, когда я нахожусь на стадии правильной настройки сезонности, я игнорирую этот аспект.
Кайл Брандт
Кроме того, поправьте меня, если я не использую "сезонность" правильно. В настоящее время я думаю, что это скороговорка в единицу времени, которую я говорю. Так что «Еженедельная сезонность» для меня означает «шаблон, который повторяется каждую неделю».
Кайл Брандт
Хм, звучит знакомо (-;
Смотрите ответы на stats.stackexchange.com/questions/14742/… . Может быть отправной точкой.
Питер Эллис
Может быть, в основе этого лежит сочетание неделя + год? Кажется ts(и даже msts) не подходит период выборки недели с «естественным» периодом года (я не думаю, что календари на самом деле). Или я просто не понимаю, как заставить это работать ...
Кайл Брандт

Ответы:

5

Я постоянно моделирую такие данные. Вы должны включить

  • день недели
  • праздничные эффекты (ведущие, одновременные и запаздывающие эффекты)
  • особые дни месяца
  • возможно пятница перед праздником или понедельник после праздника
  • еженедельные эффекты
  • ежемесячные эффекты
  • Структура ARIMA для отображения ошибок белого шума;
  • и другие. ,

Статистический подход называется моделированием передаточной функции с обнаружением вмешательства. Если вы хотите поделиться своими данными в частном порядке через dave@autobox.com или, желательно, через SE, я был бы более чем рад показать вам специфику окончательной модели и расширить вашу способность сделать это самостоятельно или, по крайней мере, помочь вам и другие, чтобы понять, что нужно сделать и что можно сделать. В любом случае вы выходите умнее, не тратя никаких сокровищ, будь то монета или время. Вы можете прочитать некоторые другие мои ответы на вопросы временного ряда, чтобы узнать больше.

IrishStat
источник