Я использую ежедневные временные ряды данных о продажах, которые содержат около 2 лет ежедневных точек данных. Основываясь на некоторых онлайн-уроках / примерах, я попытался определить сезонность в данных. Кажется, что есть еженедельная, ежемесячная и, вероятно, годовая периодичность / сезонность.
Например, существуют дни выплаты, особенно в первый день выплаты за месяц, который длится несколько дней в течение недели. Есть также некоторые специфические праздничные эффекты, которые можно четко определить, отметив наблюдения.
С некоторыми из этих наблюдений я попробовал следующее:
ARIMA (с пакетом R-прогноз
Arima
иauto.arima
из него), с использованием регрессора (и других значений по умолчанию, необходимых в функции). Регрессор, который я создал, представляет собой матрицу значений 0/1:- 11 месяцев (n-1) переменных
- 12 праздничных переменных
- Не могу понять часть зарплаты ... так как это немного более сложный эффект, чем я думал. Эффект зарплаты работает по-разному, в зависимости от дня недели 1-го месяца.
Я использовал 7 (то есть недельную частоту) для моделирования временных рядов. Я попробовал тест - прогнозирование 7 дней за один раз. Результаты являются разумными: средняя точность прогноза за 11 недель составляет среднегодовой среднеквадратичный показатель до 5%.
Модель TBATS (из пакета R-прогноз) - с использованием множественной сезонности (7, 30,4375, 365,25) и, очевидно, без регрессора. Точность на удивление лучше, чем у модели ARIMA при средней еженедельной RMSE 3,5%.
В этом случае модель без ошибок ARMA работает немного лучше. Теперь, если я применю коэффициенты только для Эффектов Отпуска из модели ARIMA, описанной в # 1, к результатам модели TBATS средненедельный RMSE за неделю улучшится до 2,95%.
Теперь, не имея большого опыта или знаний о базовых теориях этих моделей, у меня возникла дилемма, является ли этот подход TBATS даже допустимым. Несмотря на то, что он значительно улучшает RMSE в ходе 11-недельного теста, мне интересно, сможет ли он выдержать эту точность в будущем. Или даже если применение эффектов «Отпуск» от ARIMA к результатам TBATS является оправданным. Любые мысли от любого / всех участников будут высоко оценены.
Примечание. Для загрузки файла выполните команду «Сохранить ссылку как».
Ответы:
Вы должны оценивать модели и прогнозы из разных источников по разным горизонтам, а не по одному номеру, чтобы оценить подход.
Я предполагаю, что ваши данные из США. Я предпочитаю более 3 лет ежедневных данных, так как вы можете провести два выходных в выходные и не читать будни. Похоже, что ваше влияние на День благодарения - выходной в 2012 году, или произошла ошибка записи, из-за которой модель пропустила эффект Дня благодарения.
Januarys обычно находятся в наборе данных, если вы смотрите в% от года. Выходные высокие. Манекены отражают это поведение .... MONTH_EFF01, FIXED_EFF_N10507, FIXED_EFF_N10607
Я обнаружил, что использование компонента AR с суточными данными предполагает, что последние две недели дня недели - это то, как выглядит модель в целом, что является большим предположением. Мы начали с 11 ежемесячных манекенов и 6 ежедневных манекенов. Некоторые выпали из модели. B ** 1 означает, что на следующий день после выходных сказывается отставание. Было 6 особых дней месяца (дни 2,3,5,21,29,30 ---- 21 может быть поддельным?) И 3 временных графика, 2 сезонных импульса (где день недели начал отклоняться от как правило, 0 перед этими данными и 1 каждые 7-й день после) и 2 выброса (обратите внимание на день благодарения!) Это заняло чуть менее 7 минут. Скачать все результаты можно здесь www.autobox.com/se/dd/daily.zip
Он включает в себя быстрый и грязный лист XLS, чтобы проверить, имеет ли модель смысл. Конечно, XLS% на самом деле плохие, поскольку они являются грубыми ориентирами.
Попробуйте оценить эту модель:
источник