Я выпускник факультета бизнеса и экономики, который в настоящее время учится на степень магистра в области инженерии данных. Во время изучения линейной регрессии (LR), а затем анализа временных рядов (TS) у меня возник вопрос. Зачем создавать новый метод, т. Е. Временные ряды (ARIMA), вместо использования множественной линейной регрессии и добавления к ней лаговых переменных (порядок лагов определяется с помощью ACF и PACF)? Поэтому учитель предложил мне написать небольшое эссе по этому вопросу. Я не пришел бы искать помощь с пустыми руками, поэтому я провел исследование по этой теме.
Я уже знал, что при использовании LR, если предположения Гаусса-Маркова нарушаются, регрессия OLS является неправильной, и что это происходит при использовании данных временных рядов (автокорреляция и т. Д.). (еще один вопрос по этому поводу, одно предположение GM заключается в том, что независимые переменные должны быть нормально распределены? или только зависимая переменная обусловлена независимыми переменными?)
Я также знаю, что при использовании регрессии распределенного лага, которая, как мне кажется, я здесь предлагаю, и использовании OLS для оценки параметров, может возникнуть (очевидно) мультиколлинеарность между переменными, поэтому оценки будут неверными.
В аналогичном посте о TS и LR , @IrishStat сказал:
... модель регрессии является частным случаем модели передаточной функции, также известной как модель динамической регрессии или модель XARMAX. Характерным моментом является то, что идентификация модели во временных рядах, т.е. соответствующие различия, соответствующие задержки X, соответствующая структура ARIMA, надлежащая идентификация неопределенной детерминированной структуры, такой как импульсы, сдвиги уровней, тренды локального времени, сезонные импульсы и включение изменения параметров или ошибки дисперсии должны быть рассмотрены.
(Я также читал его статью в Autobox о Box Jenkins против LR.) Но это все еще не решает мой вопрос (или, по крайней мере, он не проясняет для меня различную механику RL и TS).
Очевидно, что даже с лаговыми переменными возникают проблемы OLS, и они не эффективны и не корректны, но при использовании максимальной вероятности эти проблемы сохраняются? Я читал, что ARIMA оценивается по максимальной вероятности, поэтому, если LR с лагами оценивается с ML вместо OLS, это дает «правильные» коэффициенты (давайте предположим, что мы также включаем слагаемые с задержкой ошибок, как MA порядка д).
Короче, проблема в OLS? Решена ли проблема с применением ML?
Ответы:
Предположение о нормальности иногда вызывается для ошибок модели, а не для независимых переменных. Однако нормальность не требуется ни для согласованности и эффективности оценки OLS, ни для выполнения теоремы Гаусса-Маркова. В статье Википедии о теореме Гаусса-Маркова прямо говорится, что «ошибки не должны быть нормальными».
Высокая степень мультиколлинеарности означает завышенную дисперсию оценки МНК. Тем не менее, оценщик OLS по-прежнему СИНИЙ, пока мультиколлинеарность не идеальна. Таким образом, ваше утверждение не выглядит правильным.
Модель AR может быть оценена с использованием как OLS, так и ML; оба эти метода дают согласованные оценки. Модели MA и ARMA не могут быть оценены с помощью OLS, поэтому ML является основным выбором; опять же, это соответствует. Другим интересным свойством является эффективность, и здесь я не совсем уверен (но ясно, что информация должна быть доступна где-то, так как вопрос довольно стандартный). Я бы попробовал прокомментировать «правильность», но я не уверен, что вы подразумеваете под этим.
источник
Это отличный вопрос. Реальная разница между моделями ARIMA и множественной линейной регрессией заключается в вашей структуре ошибок. Вы можете манипулировать независимыми переменными в модели множественной линейной регрессии, чтобы они соответствовали вашим данным временных рядов, о чем говорит @IrishStat. Однако после этого вам нужно включить ошибки ARIMA в вашу модель множественной регрессии, чтобы получить правильный коэффициент и результаты теста. Отличная бесплатная книга на эту тему: https://www.otexts.org/fpp/9/1 . Я связал раздел, в котором обсуждается сочетание ARIMA и моделей множественной регрессии.
источник
Хороший вопрос, я на самом деле построил оба в моей повседневной работе в качестве ученого данных. Модели временных рядов просты в построении (пакет прогноза в R позволяет создавать один менее чем за 5 секунд), такой же или более точный, чем регрессионные модели и т. Д. Как правило, всегда следует строить временные ряды, а затем регрессию. Есть также философские последствия временных рядов, если вы можете предсказать, ничего не зная, то что это значит?
Мой взгляд на Дарлингтона. 1) «Регрессия гораздо более гибкая и мощная, производя лучшие модели. Эта точка зрения развивается во многих местах на протяжении всей работы».
Нет, совсем наоборот. Модели регрессии делают гораздо больше предположений, чем модели временных рядов. Чем меньше предположений, тем больше вероятность противостоять землетрясению (смене режима). Кроме того, модели временных рядов быстрее реагируют на внезапные изменения.
2) «Регрессия намного легче освоить, чем ARIMA, по крайней мере, для тех, кто уже знаком с использованием регрессии в других областях». Это круговые рассуждения.
3) «Регрессия использует« закрытый »вычислительный алгоритм, который, по существу, гарантированно дает результаты, если это вообще возможно, в то время как ARIMA и многие другие методы используют итеративные алгоритмы, которые часто не могут достичь решения. Я часто видел, как метод ARIMA« зависал » «На данных, которые дали метод регрессии без проблем».
Регрессия дает вам ответ, но правильный ли это ответ? Если я строю модели линейной регрессии и машинного обучения, и все они приходят к одному и тому же выводу, что это значит?
Таким образом, в целом, да, регрессия и временные ряды могут как ответить на один и тот же вопрос, так и технически, временные ряды - это технически регрессия (хотя и авторегрессия). Модели временных рядов менее сложны и, следовательно, более устойчивы, чем модели регрессии. Если вы думаете о специализации, то модели TS специализируются на прогнозировании, тогда как регрессия специализируется на понимании. Это сводится к тому, хотите ли вы объяснить или предсказать.
источник
Полагаем, что самое глубокое различие между передаточными функциями и множественной линейной регрессией (в обычном использовании) заключается в их целях, множественные регрессии ориентированы на поиск основных причинно-наблюдаемых детерминантов зависимой переменной, тогда как передаточные функции просто хотят прогнозировать влияние на зависимую переменная вариации конкретной экзогенной переменной ... Таким образом, множественная регрессия ориентирована на исчерпывающее объяснение и функцию передачи для прогнозирования очень специфических эффектов ...
источник