В качестве дополнительного хобби я изучал прогнозирование временных рядов (в частности, с использованием R).
По моим данным, у меня есть количество посещений в день, за каждый день, уходящий почти на 4 года. В этих данных есть несколько четких закономерностей:
- Понедельник-пятница имеет много посещений (самый высокий в понедельник / вторник), но значительно меньше в субботу и воскресенье.
- Определенные времена года падают (то есть намного меньше посещений вокруг праздников США, лето показывает меньший рост)
- Значительный рост из года в год
Было бы неплохо иметь возможность прогнозировать наступающий год на основе этих данных, а также использовать их для сезонной корректировки роста от месяца к месяцу. Главное, что отталкивает меня от ежемесячного просмотра:
- В определенные месяцы будет больше понедельника / вторника, чем в другие месяцы (и это не всегда соответствует годам). Поэтому месяц, который случается с большим количеством будних дней, необходимо соответствующим образом скорректировать.
Исследование недель также кажется трудным, поскольку системы нумерации недель меняются с 52-53 в зависимости от года, и, похоже, ts
это не справляется.
Я размышляю о том, чтобы взять среднее значение для рабочих дней месяца, но полученная единица немного странная (рост числа посещений в будние дни), и это приведет к удалению данных, которые являются действительными.
Я чувствую, что такого рода данные будут распространены во временных рядах (скажем, например, использование электричества в офисном здании может быть чем-то вроде этого), у кого-нибудь есть какие-либо советы о том, как его моделировать, в частности, в R?
Данные, с которыми я работаю, довольно просты, они начинаются как:
[,1]
2008-10-05 17607
2008-10-06 36368
2008-10-07 40250
2008-10-08 39631
2008-10-09 40870
2008-10-10 35706
2008-10-11 18245
2008-10-12 23528
2008-10-13 48077
2008-10-14 48500
2008-10-15 49017
2008-10-16 50733
2008-10-17 46909
2008-10-18 22467
и продолжается до сих пор, с общей тенденцией роста, некоторыми провалами в выходные дни в США, а летом рост обычно замедляется.
источник
ts
(и дажеmsts
) не подходит период выборки недели с «естественным» периодом года (я не думаю, что календари на самом деле). Или я просто не понимаю, как заставить это работать ...Ответы:
Я постоянно моделирую такие данные. Вы должны включить
Статистический подход называется моделированием передаточной функции с обнаружением вмешательства. Если вы хотите поделиться своими данными в частном порядке через dave@autobox.com или, желательно, через SE, я был бы более чем рад показать вам специфику окончательной модели и расширить вашу способность сделать это самостоятельно или, по крайней мере, помочь вам и другие, чтобы понять, что нужно сделать и что можно сделать. В любом случае вы выходите умнее, не тратя никаких сокровищ, будь то монета или время. Вы можете прочитать некоторые другие мои ответы на вопросы временного ряда, чтобы узнать больше.
источник