Почему мои модели VAR работают лучше с нестационарными данными, чем со стационарными данными?

9

Я использую библиотеку python statsmodels VAR для моделирования данных финансовых временных рядов, и некоторые результаты меня озадачили. Я знаю, что модели VAR предполагают, что данные временного ряда являются стационарными. Я непреднамеренно подбираю нестационарную серию журнальных цен для двух разных ценных бумаг, и, к удивлению, подобранные значения и прогнозы в выборке были очень точными с относительно незначительными стационарными остатками. на прогнозе в-образец составлял 99% , а стандартное отклонение прогноза остаточной серии составляло около 10% от прогнозных значений.р2

Однако, когда я различаю логарифмические цены и подгоняю эти временные ряды к модели VAR, подогнанные и прогнозные значения находятся далеко от цели, отскакивая в узком диапазоне вокруг среднего значения. В результате остатки лучше прогнозируют результаты журналов, чем установленные значения, при этом стандартное отклонение остатков прогноза в 15 раз больше, чем у подогнанного ряда данных, и значение 0,007 для серии прогноза.р2

Я неверно истолковываю данные о соответствии с остатками на модели VAR или допускаю какую-то другую ошибку? Почему нестационарный временной ряд приводит к более точным прогнозам, чем стационарный, основанный на тех же базовых данных? Я хорошо поработал с моделями ARMA из той же библиотеки Python и не видел ничего похожего на моделирование данных одной серии.

jpeginternet
источник
5
Два факта: (1) Когда вы регрессируете одну случайную прогулку на другую случайную прогулку и неправильно предполагаете стационарность, вы почти всегда получаете очень статистически значимые результаты, даже если они являются независимыми процессами! , (2) Если две переменные объединены , вы можете регрессировать одну на другую, и ваша оценка будет сходиться быстрее, чем обычная регрессия, результат, известный как супер-согласованность.
Мэтью Ганн
Большое спасибо. Факт № 1 наверняка объясняет результаты для нестационарных рядов. Результаты стационарных серий, безусловно, действуют так, как будто они показывают то, что вы называете сверхсогласованностью, за исключением того, что, насколько я могу судить, эти две серии не объединены. Я провел линейную регрессию по двум ценовым рядам, а остатки были далеки от стационарных. Таким образом, я должен был бы предположить, что модель VAR предсказывает так плохо, потому что две возвращаемые серии не сильно взаимно автокоррелированы. Тест Грейнджер это также подтверждает.
jpeginternet
@ MatthewGunn, ваш комментарий может быть лучше в качестве ответа.
Ричард Харди

Ответы:

9

Два факта:

  1. Когда вы регрессируете одно случайное блуждание на другое случайное блуждание и неправильно предполагаете стационарность, ваше программное обеспечение, как правило, выдает статистически значимые результаты, даже если они являются независимыми процессами! Например, посмотрите эти лекционные заметки. (Google для ложного случайного блуждания и многочисленных ссылок появится.) Что происходит? Обычная оценка OLS и стандартные ошибки основаны на предположениях, которые не верны в случае случайных прогулок.

    Делая вид, что применяются обычные допущения OLS, и регрессия двух независимых случайных блужданий друг на друга, как правило, приводит к регрессиям с огромными , очень значимыми коэффициентами, и все это полностью фиктивно! Когда происходит случайное блуждание и вы запускаете регрессию на уровнях, нарушаются обычные предположения для OLS, ваша оценка не сходится как , обычная центральная предельная теорема не применяется, а t-stats и p-значения ваша регрессия выплевывает все неправильно .р2T

  2. Если две переменные объединены , вы можете регрессировать одну на другую, и ваша оценка будет сходиться быстрее, чем обычная регрессия, результат, известный как сверхсогласованность. Например. Оформить заказ «Временные ряды» Джона Кокрейна онлайн и найти «сверхсогласованный».

Мэтью Ганн
источник