У меня умеренный фон в прогнозировании временных рядов. Я просмотрел несколько книг по прогнозированию и не вижу следующих вопросов, адресованных ни в одной из них.
У меня есть два вопроса:
Как бы я определил объективно (с помощью статистического теста), имеет ли данный временной ряд:
- Стохастическая сезонность или детерминированная сезонность
- Стохастический тренд или детерминированный тренд
Что бы произошло, если бы я смоделировал свой временной ряд как детерминированный тренд / сезонность, когда ряд имеет явно стохастический компонент?
Любая помощь в решении этих вопросов будет принята с благодарностью.
Пример данных для тренда:
7,657
5,451
10,883
9,554
9,519
10,047
10,663
10,864
11,447
12,710
15,169
16,205
14,507
15,400
16,800
19,000
20,198
18,573
19,375
21,032
23,250
25,219
28,549
29,759
28,262
28,506
33,885
34,776
35,347
34,628
33,043
30,214
31,013
31,496
34,115
33,433
34,198
35,863
37,789
34,561
36,434
34,371
33,307
33,295
36,514
36,593
38,311
42,773
45,000
46,000
42,000
47,000
47,500
48,000
48,500
47,000
48,900
time-series
forecasting
arima
stochastic-processes
предсказатель
источник
источник
Ответы:
1) Что касается вашего первого вопроса, некоторые статистические данные были разработаны и обсуждены в литературе для проверки нулевой стационарности и нулевого единичного корня. Вот некоторые из многочисленных работ, написанных по этому вопросу:
Связанные с трендом:
Связанные с сезонной составляющей:
Учебник Банерджи, А., Доладо, Дж., Гэлбрейт, Дж. И Хендри, Д. (1993), Коинтеграция, исправление ошибок и эконометрический анализ нестационарных данных, Расширенные тексты в эконометрике. Издательство Оксфордского университета также является хорошим справочным материалом.
2) Ваше второе беспокойство обосновано литературой. Если существует единичный корень, то традиционная t-статистика, которую вы применили бы к линейному тренду, не соответствует стандартному распределению. См., Например, Phillips, P. (1987), регрессия временных рядов с единичным корнем, Econometrica 55 (2), 277-301.
Если единичный корень существует и игнорируется, то вероятность отклонения нулевого значения коэффициента линейного тренда уменьшается. То есть мы в конечном итоге слишком часто моделируем детерминированный линейный тренд для данного уровня значимости. При наличии единичного корня мы должны вместо этого преобразовывать данные, регулярно внося различия в данные.
3) Для иллюстрации, если вы используете R, вы можете выполнить следующий анализ с вашими данными.
Во-первых, вы можете применить тест Дики-Фуллера для нулевого единичного корня:
и тест KPSS для обратной нулевой гипотезы, стационарности против альтернативы стационарности вокруг линейного тренда:
Результаты: тест ADF, при уровне значимости 5% единичный корень не отклоняется; В тесте KPSS нулевая стационарность отклоняется в пользу модели с линейным трендом.
Примечание: использование
lshort=FALSE
нулевого теста KPSS не отклоняется на уровне 5%, однако выбирается 5 лагов; дополнительная проверка, не показанная здесь, показала, что выбор 1-3 лагов подходит для данных и приводит к отклонению нулевой гипотезы.В принципе, мы должны руководствоваться тестом, для которого мы смогли отклонить нулевую гипотезу (а не тестом, для которого мы не отвергли (мы приняли) нулевое значение). Однако регрессия исходного ряда по линейному тренду оказывается ненадежной. С одной стороны, R-квадрат высокий (более 90%), что в литературе указывается как показатель ложной регрессии.
С другой стороны, остатки автокоррелируются:
Кроме того, ноль корня единицы в остатках не может быть отклонен.
На этом этапе вы можете выбрать модель, которая будет использоваться для получения прогнозов. Например, прогнозы на основе модели структурных временных рядов и модели ARIMA могут быть получены следующим образом.
Сюжет прогнозов:
Прогнозы в обоих случаях схожи и выглядят обоснованными. Обратите внимание, что прогнозы следуют относительно детерминированной схеме, аналогичной линейному тренду, но мы не моделировали явно линейный тренд. Причина заключается в следующем: i) в модели локального тренда дисперсия компонента наклона оценивается как ноль. Это превращает компонент тренда в дрейф, который имеет эффект линейного тренда. ii) ARIMA (0,1,1), модель с дрейфом выбирается в модели для разностного ряда. Влияние постоянного члена на разностный ряд является линейным трендом. Это обсуждается в этом посте .
Вы можете проверить, что если выбрана локальная модель или ARIMA (0,1,0) без дрейфа, то прогнозы представляют собой прямую горизонтальную линию и, следовательно, не будут иметь сходства с наблюдаемой динамикой данных. Что ж, это часть головоломки единичных корневых тестов и детерминированных компонентов.
Редактировать 1 (проверка остатков): автокорреляция и частичный ACF не предполагают структуру в остатках.
Как предложил IrishStat, также рекомендуется проверять наличие выбросов. Два аддитивных выброса обнаруживаются с помощью пакета
tsoutliers
.Глядя на ACF, можно сказать, что при уровне значимости 5% остатки также случайны в этой модели.
В этом случае наличие потенциальных выбросов не влияет на производительность моделей. Это подтверждается тестом Жарк-Бера на нормальность; ноль нормальности в остатках от исходных моделей (
fit1
,fit2
) не отклоняется на уровне значимости 5%.Редактировать 2 (график остатков и их значений) Вот так выглядят остатки:
И это их значения в формате CSV:
источник
Что касается ваших несезонных данных ... Тенденции могут иметь две формы: y (t) = y (t − 1) + θ0 (A) Стохастический тренд или Y (t) = a + bx1 + cx2 (B) Детерминированный Тренд и т. Д., Где x1 = 1,2,3,4 .... t и x2 = 0,0,0,0,0,1,2,3,4, поэтому один тренд относится к наблюдениям 1-t, а второй - относится к наблюдениям 6 к т.
Ваш несезонный ряд содержал 29 значений. Я использовал AUTOBOX - часть программного обеспечения, которую я помогал разрабатывать полностью автоматически. AUTOBOX - прозрачная процедура, поскольку она детализирует каждый шаг в процессе моделирования. График серии / подобраны значения / прогнозы представлены здесь . Использование AUTOBOX для формирования модели типа A привело к следующему . Уравнение представлено здесь снова , Статистика модели . График остатков здесь, в то время как таблица прогнозных значений здесь . Ограничение AUTOBOX для модели типа B привело к тому, что AUTOBOX обнаружил повышенный тренд в период 14 :. !
С точки зрения сравнения моделей: поскольку количество подходящих наблюдений различается (26 и 29 соответственно), невозможно использовать стандартные метрики (т. Е. R-квадрат, стандартное отклонение dev, AIC и т. Д.) Для определения доминирования, хотя в этом случае кивок будет перейти к A. Остатки от A лучше благодаря структуре AR (2). Прогнозы от B немного агрессивны, а схема прогнозов A более интуитивна. Можно было бы сказать 4 наблюдения и оценить точность прогноза для прогноза на 1 период из 4 различных источников (25, 26, 27 и 28).
источник