Я попробовал метод прогнозирования и хочу проверить, является ли мой метод правильным или нет.
Мое исследование сравнивает различные виды взаимных фондов. Я хочу использовать индекс GCC в качестве ориентира для одного из них, но проблема в том, что индекс GCC остановился в сентябре 2011 года, а мое исследование проводится с января 2003 года по июль 2014 года. Таким образом, я попытался использовать другой индекс, индекс MSCI, чтобы сделать линейную регрессию, но проблема в том, что в индексе MSCI отсутствуют данные с сентября 2010 года.
Чтобы обойти это, я сделал следующее. Эти шаги действительны?
В индексе MSCI отсутствуют данные за сентябрь 2010 года по июль 2012 года. Я «предоставил» его, применив скользящие средние для пяти наблюдений. Этот подход действителен? Если да, сколько наблюдений я должен использовать?
После оценки отсутствующих данных я выполнил регрессию индекса GCC (как зависимой переменной) по сравнению с индексом MSCI (как независимой переменной) для взаимно доступного периода (с января 2007 года по сентябрь 2011 года), затем исправил модель из всех проблем. Для каждого месяца я заменяю x данными из индекса MSCI за период отдыха. Это действительно?
Ниже приведены данные в формате Comma-Separated-Values, содержащие годы по строкам и месяцы по столбцам. Данные также доступны по этой ссылке .
Серия GCC:
,Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec
2002,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,117.709
2003,120.176,117.983,120.913,134.036,145.829,143.108,149.712,156.997,162.158,158.526,166.42,180.306
2004,185.367,185.604,200.433,218.923,226.493,230.492,249.953,262.295,275.088,295.005,328.197,336.817
2005,346.721,363.919,423.232,492.508,519.074,605.804,581.975,676.021,692.077,761.837,863.65,844.865
2006,947.402,993.004,909.894,732.646,598.877,686.258,634.835,658.295,672.233,677.234,491.163,488.911
2007,440.237,486.828,456.164,452.141,495.19,473.926,492.782,525.295,519.081,575.744,599.984,668.192
2008,626.203,681.292,616.841,676.242,657.467,654.66,635.478,603.639,527.326,396.904,338.696,308.085
2009,279.706,252.054,272.082,314.367,340.354,325.99,326.46,327.053,354.192,339.035,329.668,318.267
2010,309.847,321.98,345.594,335.045,311.363,299.555,310.802,306.523,315.496,324.153,323.256,334.802
2011,331.133,311.292,323.08,327.105,320.258,312.749,305.073,297.087,298.671,NA,NA,NA
Серия MSCI:
,Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec
2007,NA,NA,NA,NA,1000,958.645,1016.085,1049.468,1033.775,1118.854,1142.347,1298.223
2008,1197.656,1282.557,1164.874,1248.42,1227.061,1221.049,1161.246,1112.582,929.379,680.086,516.511,521.127
2009,487.562,450.331,478.255,560.667,605.143,598.611,609.559,615.73,662.891,655.639,628.404,602.14
2010,601.1,622.624,661.875,644.751,588.526,587.4,615.008,606.133,NA,NA,NA,NA
2011,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA
2012,NA,NA,NA,NA,NA,NA,NA,609.51,598.428,595.622,582.905,599.447
2013,627.561,619.581,636.284,632.099,651.995,651.39,687.194,676.76,694.575,704.806,727.625,739.842
2014,759.036,787.057,817.067,824.313,857.055,805.31,873.619,NA,NA,NA,NA,NA
источник
Ответы:
Мое предложение похоже на то, что вы предлагаете, за исключением того, что я бы использовал модель временного ряда вместо скользящих средних. Каркас моделей ARIMA также подходит для получения прогноза, включающего не только серию MSCI в качестве регрессора, но также и лаги серии GCC, которые также могут отражать динамику данных.
Во-первых, вы можете установить модель ARIMA для серии MSCI и интерполировать отсутствующие наблюдения в этой серии. Затем вы можете подогнать модель ARIMA для серии GCC, используя MSCI в качестве экзогенных регрессоров, и получить прогнозы для GCC на основе этой модели. При этом вы должны быть осторожны, имея дело с перерывами, которые графически наблюдаются в серии и могут исказить выбор и соответствие модели ARIMA.
Вот что я делаю, делая этот анализ
R
. Я использую функцию,forecast::auto.arima
чтобы сделать выбор модели ARIMA иtsoutliers::tso
обнаружить возможные сдвиги уровней (LS), временные изменения (TC) или аддитивные выбросы (AO).Это данные после загрузки:
Шаг 1: Установите модель ARIMA для серии MSCI
Несмотря на то, что на графике видно наличие некоторых разрывов, выбросы не были обнаружены
tso
. Это может быть связано с тем, что в середине выборки есть несколько пропущенных наблюдений. Мы можем справиться с этим в два этапа. Сначала установите модель ARIMA и используйте ее для интерполяции отсутствующих наблюдений; во-вторых, подгоните модель ARIMA для интерполированной последовательной проверки возможных LS, TC, AO и уточните интерполированные значения, если найдены изменения.Выберите модель ARIMA для серии MSCI:
Заполните пропущенные наблюдения, следуя подходу, описанному в моем ответе на этот пост :
Установите модель ARIMA на заполненную серию
msci.filled
. Теперь некоторые выбросы найдены. Тем не менее, при использовании альтернативных вариантов были обнаружены различные выбросы. Я сохраню тот, который был обнаружен в большинстве случаев, - сдвиг уровня в октябре 2008 года (наблюдение 18). Вы можете попробовать, например, эти и другие варианты.Выбранная модель сейчас:
Используйте предыдущую модель, чтобы уточнить интерполяцию отсутствующих наблюдений:
Начальную и конечную интерполяции можно сравнить на графике (здесь не показано для экономии места):
Шаг 2: Установите модель ARIMA в GCC, используя msci.filled2 в качестве экзогенного регрессора
Я игнорирую отсутствующие наблюдения в начале
msci.filled2
. В этот момент я обнаружил некоторые трудности использоватьauto.arima
вместе сtso
, поэтому я попытался вручную несколько моделей ARIMA вtso
и , наконец , выбрали ARIMA (1,1,0).График GCC показывает сдвиг в начале 2008 года. Однако, похоже, что он уже был захвачен регрессором MSCI, и никакие дополнительные регрессоры не были включены, кроме аддитивного выброса в ноябре 2008 года.
График остатков не предполагал какой-либо автокорреляционной структуры, но график предлагал сдвиг уровня в ноябре 2008 года и аддитивный выброс в феврале 2011 года. Однако при добавлении соответствующих вмешательств диагностика модели оказалась хуже. На этом этапе может потребоваться дальнейший анализ. Здесь я продолжу получать прогнозы на основе последней модели
fit3
.источник
источник
2 Кажется, хорошо. Я бы пошел с этим.
Что касается 1. Я бы предложил вам обучить модель для прогнозирования GCC, используя все функции, доступные в наборе данных (которые не являются NA в период с сентября 2011 года) (пропустите строки, которые имеют любое значение NA до сентября 2011 года во время обучения). Модель должна быть очень хорошей (используйте перекрестную проверку по K-кратному критерию). Теперь прогнозируем GCC на период с сентября 2011 года и далее.
Кроме того, вы можете обучить модель, которая прогнозирует MSCI, использовать ее для прогнозирования недостающих значений MSCI. Теперь обучаем модель прогнозированию GCC с использованием MSCI, а затем прогнозируем GCC на период с сентября 2011 года и далее.
источник