Расчет ошибки прогноза с перекрестной проверкой временных рядов

13

У меня есть модель прогнозирования для временного ряда, и я хочу вычислить ошибку прогнозирования вне выборки. На данный момент стратегия, которой я придерживаюсь, - это стратегия, предложенная в блоге Роба Хиндмана (в нижней части страницы), которая выглядит следующим образом (предполагается, что временной ряд и тренировочный набор размера )Y1,...,YNК

  1. Подгоните модель к данным и пусть будет прогнозом для следующего наблюдения.YT,...,YT+К-1Y^T+К
  2. Вычислите ошибку прогноза как .еTзнак равноY^T+К-YT+К
  3. Повторите дляTзнак равно1,...,N-К
  4. Вычислить среднеквадратичную ошибку какMSEзнак равно1N-КΣTзнак равно1N-КеT2

Мой вопрос заключается в том, насколько я должен беспокоиться о корреляциях из-за моих перекрывающихся тренировочных наборов. В частности, скажем, я хочу прогнозировать не только следующее значение, но и следующие значения , чтобы у меня были прогнозы и ошибки , и я хочу построить временную структуру ошибок предсказания.мY^T+К,...,Y^T+К+м-1еT,1,...,еT,м

Могу ли я все еще поворачивать окно тренировки, установленное вперед, на 1 каждый раз, или я должен свернуть его вперед на ? Как меняются ответы на эти вопросы, если в серии, которую я предсказываю, есть значительная автокорреляция (возможно, это процесс с большой памятью, то есть автокорреляционная функция затухает как степенной закон, а не экспоненциально).м

Я был бы признателен либо за объяснение здесь, либо за ссылки на где-нибудь, где я могу найти теоретические результаты о доверительных интервалах вокруг MSE (или другие измерения ошибок).

Крис Тейлор
источник

Ответы:

11

Похоже, вас больше интересует оценка ошибок с использованием максимальной энтропийной начальной загрузки , а не перекрестной проверки. Это позволит вам создать несколько начальных загрузок ваших данных, которые затем можно будет разбить на столько наборов поездов / тестов, сколько вы захотите, чтобы рассчитать доверительные интервалы для ваших прогнозов.

Роб Хиндман подробно обсуждает перекрестную проверку временных рядов в своем блоге , где он реализует несколько различных методов «прокручивания» и прогнозирования, но в основном он сосредоточен на реализации. У меня также есть некоторые дальнейшие реализации в моем блоге . Возможно, самый простой подход - усреднить вашу ошибку по всем временным окнам и, следовательно, игнорировать и возможные корреляции ошибок.

Насколько я могу судить, теоретическое состояние перекрестной проверки данных временных рядов несколько отстает от теоретического состояния общей перекрестной проверки. Интуитивно я ожидаю, что ошибка будет увеличиваться по мере увеличения горизонта, что говорит о том, что вы должны ожидать коррелированные ошибки в различных горизонтах прогноза. Почему это беспокоит вас?

Zach
источник