Последствия моделирования нестационарного процесса с использованием ARMA?

Я понимаю, что мы должны использовать ARIMA для моделирования нестационарных временных рядов. Кроме того, все, что я читаю, говорит, что ARMA следует использовать только для стационарных временных рядов.

Я пытаюсь понять, что происходит на практике при неправильной классификации модели и предположении, что d = 0для временного ряда она нестационарна? Например:

controlData <- arima.sim(list(order = c(1,1,1), ar = .5, ma = .5), n = 44)

контрольные данные выглядят так:

 [1]   0.0000000   0.1240838  -1.4544087  -3.1943094  -5.6205257
 [6]  -8.5636126 -10.1573548  -9.2822666 -10.0174493 -11.0105225
[11] -11.4726127 -13.8827001 -16.6040541 -19.1966633 -22.0543414
[16] -24.8542959 -25.2883155 -23.6519271 -21.8270981 -21.4351267
[21] -22.6155812 -21.9189036 -20.2064343 -18.2516852 -15.5822178
[26] -13.2248230 -13.4220158 -13.8823855 -14.6122867 -16.4143756
[31] -16.8726071 -15.8499558 -14.0805114 -11.4016515  -9.3330560
[36]  -7.5676563  -6.3691600  -6.8471371  -7.5982880  -8.9692152
[41] -10.6733419 -11.6865440 -12.2503202 -13.5314306 -13.4654890

Предполагая, что я не знаю, данные были ARIMA(1,1,1), я мог бы взглянуть pacf(controlData).

PACF (controlData)

Затем я использую Dickey-Fuller, чтобы увидеть, являются ли данные нестационарными:

require('tseries')
adf.test(controlData)

# Augmented Dickey-Fuller Test
#
# data:  controlData
# Dickey-Fuller = -2.4133, Lag order = 3, p-value = 0.4099
# alternative hypothesis: stationary

adf.test(controlData, k = 1)

# Augmented Dickey-Fuller Test
#
#data:  controlData
# Dickey-Fuller = -3.1469, Lag order = 1, p-value = 0.1188
# alternative hypothesis: stationary

Итак, я могу предположить, что данные ARIMA (2,0, *). Затем использовать, auto.arima(controlData)чтобы попытаться получить наилучшее соответствие?

require('forecast')
naiveFit <- auto.arima(controlData)
naiveFit
# Series: controlData 
# ARIMA(2,0,1) with non-zero mean 
# 
# Coefficients:
#          ar1      ar2     ma1  intercept
#      1.4985  -0.5637  0.6427   -11.8690
# s.e.  0.1508   0.1546  0.1912     3.2647
#
# sigma^2 estimated as 0.8936:  log likelihood=-64.01
# AIC=138.02   AICc=139.56   BIC=147.05

Таким образом, хотя прошлые и будущие данные относятся к ARIMA (1,1,1), у меня может возникнуть соблазн классифицировать их как ARIMA (2,0,1). tsdata(auto.arima(controlData))тоже хорошо выглядит.

Вот что найдет проинформированный модельер:

informedFit <- arima(controlData, order = c(1,1,1))
# informedFit
# Series: controlData 
# ARIMA(1,1,1)                    
#
# Coefficients:
#          ar1     ma1
#       0.4936  0.6859
# s.e.  0.1564  0.1764
#
# sigma^2 estimated as 0.9571:  log likelihood=-62.22
# AIC=130.44   AICc=131.04   BIC=135.79

1) Почему эти информационные критерии лучше выбранной модели auto.arima(controlData)?

Теперь я просто графически сравниваю реальные данные и две модели:

plot(controlData)
lines(fitted(naiveFit), col = "red")
lines(fitted(informedFit), col = "blue")

tsPlots

2) Играя за адвоката дьявола, какие последствия я бы заплатил, используя ARIMA (2, 0, 1) в качестве модели? Каковы риски этой ошибки?

3) Меня больше всего волнуют любые последствия для многопериодных форвардных прогнозов. Я полагаю, они будут менее точными? Я просто ищу доказательства.

4) Вы бы предложили альтернативный метод выбора модели? Есть ли проблемы с моими рассуждениями как «неосведомленного» моделиста?

Мне действительно любопытно, каковы другие последствия такого рода неправильной классификации. Я искал некоторые источники и просто не мог ничего найти. Вся литература, которую я смог найти, касалась только этой темы, вместо этого просто указав, что данные должны быть стационарными перед выполнением ARMA, а если они нестационарные, то их нужно дифференцировать d раз.

Благодарность!

r time-series arima stationarity Кларк Генри
источник

У меня сложилось впечатление, что оно аналогично предположению об «ортогональных ошибках» в регрессии поперечного сечения (то есть оно смещает стандартные ошибки, но не коэффициенты), но мне действительно интересно услышать фактический ответ.

Shadowtalker

Ответы:

У меня сложилось впечатление, что на этот вопрос нет уникального, полностью общего ответа, поэтому я рассмотрю только простейший случай и немного неформально.

\begin{matrix} (1) & y_{t} = y_{t - 1} + u_{t}, t = 1, . . ., T, y_{0} = 0 \end{matrix}

$y_t = y_{t-1} + u_t,\;\; t=1,...,T,\;\; y_0 =0 \tag{1}$

u_{t}

$u_t$

E (u_{t}^{2}) = σ_{u}^{2}

$E(u_t^2)= \sigma^2_u$

\begin{matrix} (2) & y_{t} = \sum_{i = 1}^{t} u_{i} \end{matrix}

$y_t = \sum_{i=1}^tu_i \tag{2}$

$A$

\begin{matrix} (3) & y_{t} = β y_{t - 1} + u_{t}, t = 1, . . ., T, y_{0} = 0 \end{matrix}

$y_t = \beta y_{t-1} + u_t,\;\; t=1,...,T,\;\; y_0 =0 \tag{3}$

$\hat \beta$ $\beta$

$k$

\begin{matrix} (4) & {\hat{y}}_{T + k} = {\hat{β}}^{k} y_{T} \end{matrix}

$\hat y_{T+k} = \hat \beta^k y_T \tag{4}$

и его MSE будет

M S E_{A} [{\hat{y}}_{T + k}] = E {({\hat{β}}^{k} y_{T} - y_{T + k})}^{2}

$MSE_A[\hat y_{T+k}] = E\left(\hat \beta^k y_T-y_{T+k}\right)^2$

\begin{matrix} (5) & = E {[({\hat{β}}^{k} - 1) y_{T} - \sum_{i = T + 1}^{T + k} u_{i}]}^{2} = E [({\hat{β}}^{k} - 1)^{2} y_{T}^{2}] + k σ_{u}^{2} \end{matrix}

$=E\left[(\hat \beta^k-1) y_T -\sum_{i=T+1}^{T+k}u_i \right]^2 = E\big[(\hat\beta^k-1)^2 y_T^2\big]+ k\sigma^2_u \tag{5}$

(средний член квадрата исчезает, как и перекрестные произведения будущих ошибок).

$B$

\begin{matrix} (6) & Δ y_{t} = γ Δ y_{t - 1} + u_{t} \end{matrix}

$\Delta y_t = \gamma \Delta y_{t-1} + u_t \tag{6}$

$\hat \gamma$

\begin{matrix} (7) & y_{t} = y_{t - 1} + γ (y_{t - 1} - y_{t - 2}) + u_{t} \end{matrix}

$y_t = y_{t-1} + \gamma (y_{t-1}-y_{t-2}) + u_t \tag{7}$

поэтому прогнозируя уровень процесса, мы будем иметь

{\hat{y}}_{T + 1} = y_{T} + \hat{γ} (y_{T} - y_{T - 1})

$\hat y_{T+1} = y_{T} + \hat \gamma (y_{T}-y_{T-1})$

что на самом деле, учитывая истинный DGP будет

\begin{matrix} (8) & {\hat{y}}_{T + 1} = y_{T} + \hat{γ} u_{T} \end{matrix}

$\hat y_{T+1} = y_{T} + \hat \gamma u_T \tag {8}$

$B$

{\hat{y}}_{T + k} = y_{T} + (\hat{γ} + {\hat{γ}}^{2} + . . . + {\hat{γ}}^{k}) u_{T}

$\hat y_{T+k} = y_{T} + \big(\hat \gamma + \hat \gamma^2+...+\hat \gamma^k)u_T$

$|\hat \gamma|<1$ $0$

\begin{matrix} (9) & {\hat{y}}_{T + k} = y_{T} + \frac{\hat{γ} - {\hat{γ}}^{k + 1}}{1 - \hat{γ}} u_{T} \end{matrix}

$\hat y_{T+k} = y_{T} + \frac {\hat \gamma - \hat \gamma ^{k+1}}{1-\hat \gamma}u_T \tag{9}$

и другие

\begin{matrix} (10) & M S E_{B} [{\hat{y}}_{T + k}] = E [{(\frac{\hat{γ} - {\hat{γ}}^{k + 1}}{1 - \hat{γ}})}^{2} u_{T}^{2}] + k σ_{u}^{2} \end{matrix}

$MSE_B[\hat y_{T+k}] = E\left[\left(\frac {\hat \gamma - \hat \gamma ^{k+1}}{1-\hat \gamma}\right)^2u_T^2\right] + k\sigma^2_u \tag{10}$

пока повторюсь для удобства

\begin{matrix} (5) & M S E_{A} [{\hat{y}}_{T + k}] = E [({\hat{β}}^{k} - 1)^{2} y_{T}^{2}] + k σ_{u}^{2} \end{matrix}

$MSE_A[\hat y_{T+k} ] = E\big[(\hat\beta^k-1)^2 y_T^2\big]+ k\sigma^2_u \tag{5}$

Итак, чтобы дифференцированная модель работала лучше с точки зрения прогнозирования MSE, мы хотим

M S E_{B} [{\hat{y}}_{T + k}] \leq M S E_{A} [{\hat{y}}_{T + k}]

$MSE_B[\hat y_{T+k}] \leq MSE_A[\hat y_{T+k}]$

\Rightarrow Е [{(\frac{\hat{γ} - {\hat{γ}}^{К + 1}}{1 - \hat{γ}})}^{2} U_{T}^{2}] \leq Е [({\hat{β}}^{К} - 1)^{2} Y_{T}^{2}]

$\Rightarrow E\left[\left(\frac {\hat \gamma - \hat \gamma ^{k+1}}{1-\hat \gamma}\right)^2u_T^2\right] \leq E\big[(\hat\beta^k-1)^2 y_T^2\big]$

$B$ $A$ $\hat \beta$

$\hat \beta >1$ $k$ $k$ $B$ $A$

$A$ $\hat \beta <1$ $k \rightarrow \infty$

Е [{(\frac{\hat{γ}}{1 - \hat{γ}})}^{2} U_{T}^{2}] \leq Е [Y_{T}^{2}] знак равно T σ_{U}^{2} ? ?

$E\left[\left(\frac {\hat \gamma}{1-\hat \gamma}\right)^2u_T^2\right] \leq E\big[y_T^2\big]= T\sigma^2_u\;\; ??$

$k \rightarrow \infty$ $k$

$\left(\frac {\hat \gamma }{1-\hat \gamma}\right)^2$ $0$ $B$

$\hat \gamma$ $u_T$

Cov [{(\frac{\hat{γ}}{1 - \hat{γ}})}^{2}, U_{T}^{2}] + Е [{(\frac{\hat{γ}}{1 - \hat{γ}})}^{2}] \cdot σ_{U}^{2} \leq T σ_{U}^{2} ? ?

$\operatorname{Cov}\left[\left(\frac {\hat \gamma}{1-\hat \gamma}\right)^2,\,u_T^2\right] + E\left[\left(\frac {\hat \gamma}{1-\hat \gamma}\right)^2\right]\cdot \sigma^2_u \leq T\sigma^2_u\;\; ??$

\Rightarrow Cov [{(\frac{\hat{γ}}{1 - \hat{γ}})}^{2}, U_{T}^{2}] \leq (T - Е [{(\frac{\hat{γ}}{1 - \hat{γ}})}^{2}]) \cdot σ_{U}^{2} ? ?

$\Rightarrow \operatorname{Cov}\left[\left(\frac {\hat \gamma}{1-\hat \gamma}\right)^2,\,u_T^2\right] \leq \left (T-E\left[\left(\frac {\hat \gamma}{1-\hat \gamma}\right)^2\right]\right)\cdot \sigma^2_u \;\; ??$

$\hat \gamma$ $T$ $\hat \gamma$ $(0,1)$

Таким образом, в целом, не обсуждая какой-либо конкретный метод оценки, я считаю, что мы смогли неофициально показать, что дифференцированная модель должна работать лучше с точки зрения прогнозирования MSE.

Алекос Пападопулос
источник

Это хороший вопрос.

Как я понимаю, вы только что рассмотрели pacf, но этого недостаточно. ACF и PACF необходимы для выбора лучшей модели.

С другой стороны, стационарные тесты являются слабыми и чувствительными и требуют большого количества лагов для тестирования.

Кроме того, предпочтительно, чтобы временные ряды оставались неподвижными перед применением любой модели. Грубо говоря, модели ARIMA просто рассматривают частный случай нестационарности (предпочтительно в тренде).

Что касается ваших вопросов, я не уверен насчет функции auto.arima, но уверен, что количество точек данных в вашем примере невелико. Имитация модели с использованием большого количества точек данных хорошо ответит на ваши вопросы. Кроме того, я советую вам рассмотреть ACF временных рядов, а также PACF. Что касается выбора модели, эмпирическое правило выбирает простейшую модель (обратите внимание, что самая простая модель после перевода временного ряда в стационарный).

Я отсылаю вас к этой ссылке. Эта книга не отвечает на все ваши вопросы, но дает вам некоторые подсказки.

----- дополнительный раздел ------- @nsw с учетом тенденции в ваших данных. Если вы рассматриваете стационарную модель, это приводит к прогнозированию вверх / вниз, но на самом деле модели ARMA предназначены для прогнозирования плоских данных. Я изменил ваш код, чтобы отразить эту разницу:

требуют ( «прогноз»)

требовать ( '') tseries

controlData <- arima.sim (список (order = c (1,1,1), ar = .5, ma = .5), n = 1000 )

ACF (controlData)

ts.plot (controlData)

naiveFit <- арима (controlData, order = c (2,0,1))

trueFit <- арима (controlData, order = c (1,1,1))

PrnaiveFit <-forecast.Arima (naiveFit, 10)

PrtrueFit <- прогноз. Арима (trueFit, 10)

matplot (cbind (PrnaiveFit $ среднее, PrtrueFit $ среднее), тип = 'B', Col = C ( 'красный', 'зеленый'), ylab = с ( 'предсказывают ион'), PCH = с ( 'N', 'т'))

TPArrow
источник

Вопрос состоит в том, почему предпочтительнее «сделать временные ряды стационарными». Это на самом деле не отвечает на этот вопрос.

теневик

@ssdecontrol Вы правы в целом. Я действительно больше обеспокоен предполагаемыми последствиями для прогноза после неправильной спецификации. Но я не хочу слишком сильно биться с Хамедом. Он все еще отвечал на мой последний вопрос о том, "это правильный выбор модели?" Но повторюсь, это меньше всего меня беспокоит.

Кларк Генри