Регресс временных рядов с перекрывающимися данными

13

Я наблюдаю регрессионную модель, которая регрессирует доходность фондовых индексов в годовом исчислении по годичным (12 месяцев) доходностям одного и того же фондового индекса, кредитному спреду (разница между среднемесячным значением безрисковых облигаций и корпоративных облигаций). доходности), инфляция в годовом исчислении и индекс промышленного производства в годовом сопоставлении.

Это выглядит следующим образом (хотя в этом случае вы бы подставили данные, специфичные для Индии):

SP500YOY(T) = a + b1*SP500YOY(T-12) + b2*CREDITSPREAD(T) +    
b4*INDUSTRIALPRODUCTION(T+2) + b3*INFLATION(T+2) + b4*INFLATIONASYMM(T+2)

SP500YOY - это годовой доход по индексу SP500. Для вычисления этого среднемесячные значения SP500 вычисляются, а затем преобразуются в годовой доход за каждый месяц (т.е. январь-10-январь-11, февраль-10- 11 февраля, 11 марта - 11 марта.). Что касается поясняющих переменных, используется 12-месячное запаздывающее значение SP500YOY вместе с CREDITSPREAD в момент времени T, а два периода вперед - ИНФЛЯЦИЯ и ПРОМЫШЛЕННОЕ ПРОИЗВОДСТВО. INFLATIONASYMM является фиктивной для того, превышает ли инфляция пороговое значение 5,0%. Индекс в скобках показывает индекс времени для каждой переменной.

Это оценивается с помощью стандартной линейной регрессии МНК. Чтобы использовать эту модель для прогнозирования годовой доходности SP500 на 1,2 и 3 месяца вперед, необходимо создать прогноз на 3,4 и 5 месяцев для инфляции и индекса промышленного производства. Эти прогнозы делаются после подбора модели ARIMA для каждого из двух в отдельности. Прогнозы CreditSpread на 1,2 и 3 месяца вперед просто представлены в качестве ментальных оценок.

Я хотел бы знать, является ли эта линейная регрессия OLS правильной / неправильной, эффективной / неэффективной или общепринятой статистической практикой.

Первая проблема, которую я вижу, заключается в использовании перекрывающихся данных. т.е. ежедневные значения фондового индекса усредняются каждый месяц, а затем используются для расчета годовых доходов, которые пролонгируются ежемесячно. Это должно сделать термин ошибки автокоррелированным. Я бы подумал, что нужно использовать некоторую «коррекцию» в строках одного из следующих действий:

  • Гетероскедастичность белых в соответствии с оценкой ковариации
  • Оценка согласованности гетероскедастичности и автокорреляции (HAC) Ньюи и Уэста
  • согласованная с гетероскедастичностью версия Hansen & Hodrick

Действительно ли имеет смысл применять стандартную линейную регрессию OLS (без каких-либо исправлений) к таким перекрывающимся данным и, более того, использовать прогноз ARIMA на 3 периода вперед для пояснительных переменных, чтобы использовать в исходной линейной регрессии OLS для прогнозирования SP500YOY? Я не видел такой формы раньше и, следовательно, не могу судить о ней, за исключением исправления для использования перекрывающихся наблюдений.

Вишал Белсаре
источник
Пожалуйста, не кросс-пост .
Джошуа Ульрих

Ответы:

10

Вот пара статей, которые касаются этой темы:

Бриттен-Джонс и Нойбергер, Улучшенный вывод и оценка в регрессии с перекрывающимися наблюдениями

Harri & Brorsen, Проблема перекрывающихся данных

R_Coholic
источник
1
Из этих документов не очень ясно, как применять эти исправления на практике. Есть где-нибудь более практичное прохождение или учебник?
rinspy
@rinspy См. quant.stackexchange.com/questions/35216/… для получения некоторого кода на Hansen & Hodrick
Candamir
5
Можете ли вы предоставить краткую информацию об этих статьях и о том, как они решают вопрос?
gung - Восстановить Монику