Процедура выбора модели Бокса-Дженкинса в анализе временных рядов начинается с рассмотрения автокорреляционных и частичных автокорреляционных функций ряда. Эти графики могут предложить соответствующие и в модели ARMA . Процедура продолжается, предлагая пользователю применить критерии AIC / BIC для выбора наиболее экономной модели среди тех, которые дают модель с ошибкой в виде белого шума.
Мне было интересно, как эти этапы визуального осмотра и выбора модели на основе критериев влияют на предполагаемые стандартные ошибки окончательной модели. Я знаю, что многие процедуры поиска в области поперечного сечения, например, могут привести к смещению стандартных ошибок.
На первом шаге, как выбор подходящего числа лагов с помощью данных (ACF / PACF) влияет на стандартные ошибки для моделей временных рядов?
Я предполагаю, что выбор модели на основе баллов AIC / BIC окажет влияние, аналогичное влиянию методов поперечного сечения. На самом деле я тоже не очень разбираюсь в этой области, поэтому любые комментарии также будут оценены.
Наконец, если вы записали точный критерий, используемый для каждого шага, можете ли вы запустить весь процесс, чтобы оценить стандартные ошибки и устранить эти проблемы?
Ответы:
Любая процедура выбора модели повлияет на стандартные ошибки, и это вряд ли когда-либо учитывается. Например, интервалы прогнозирования вычисляются условно на основе оценочной модели, а оценка параметров и выбор модели обычно игнорируются.
Должна быть предусмотрена возможность начальной загрузки всей процедуры, чтобы оценить влияние процесса выбора модели. Но помните, что начальная загрузка временных рядов сложнее обычной начальной загрузки, потому что вы должны сохранить последовательную корреляцию. Начальная загрузка блока - один из возможных подходов, хотя он теряет некоторую последовательную корреляцию из-за структуры блока.
источник
По моему мнению, выбор подходящего количества лагов ничем не отличается от выбора количества входных рядов в процедуре пошаговой регрессии вперед. Возрастание важности лагов или конкретной серии входных данных является основой для предварительной спецификации модели.
Поскольку вы утверждали, что acf / pacf является единственной основой для выбора модели Box-Jenkins, позвольте мне рассказать вам, чему меня научил некоторый опыт. Если в серии проявляется не затухающая акция, подход Бокса-Дженкинса (около 1965 г.) предполагает различие данных. Но если ряд имеет сдвиг уровня, как данные Нила , то «визуально видимая» нестационарность является признаком необходимой структуры, но различие не является средством защиты. Этот набор данных Нила можно моделировать без различий, просто указав сначала на необходимость изменения уровня. В том же духе нас учат, используя понятия 1960 года, что если акф имеет сезонную структуру ( т.е.значимые значения при запаздывании s, 2s, 3s, ...) тогда мы должны включить сезонный компонент ARIMA. В целях обсуждения рассмотрим ряд, который является стационарным вокруг среднего значения и с фиксированными интервалами, скажем, каждый июнь есть «высокое значение». Эта серия должным образом обрабатывается путем включения «старомодных» фиктивных серий 0 и 1 (в июне) для обработки сезонной структуры. Сезонная модель ARIMA неправильно использовала бы память вместо неопределенной, но ожидающей быть найденной X-переменной. Эти две концепции идентификации / включения неопределенной детерминированной структуры являются прямыми приложениями работы И. Чанга, Уильяма Белла, Джорджа Тяо, Р. Цая , Чена и др. (Начиная с 1978 г.) в рамках общей концепции обнаружения вмешательства.
Даже сегодня некоторые аналитики бездумно проводят стратегии максимизации памяти, называя их «Автоматическая ARIMA», не признавая, что «моделирование бессмысленной памяти» предполагает, что детерминированная структура, такая как импульсы, сдвиги уровней, сезонные импульсы и локальные тренды времени, не существует или хуже, но не играет никакой роли. роль в идентификации модели. ИМХО, это похоже на то, чтобы положить голову в песок.
источник