Связь и разница между временными рядами и регрессией?

12

Какова связь и разница между временными рядами и регрессией?

Для моделей и допущений , правильно ли, что регрессионные модели предполагают независимость между выходными переменными для разных значений входной переменной, в то время как модель временного ряда - нет? Какие еще отличия?

Для методов , с сайта Дарлингтона

Существует несколько подходов к анализу временных рядов, но наиболее известны два метода регрессии и метод Бокса-Дженкинса (1976) или ARIMA (AutoRegressive Integrated Moving Average). Этот документ представляет метод регрессии. Я считаю, что метод регрессии намного превосходит ARIMA по трем основным причинам.

Я не совсем понимаю, что такое «метод регрессии» для временных рядов на сайте, и чем он отличается от метода Бокса-Дженкинса или ARIMA. Я ценю, если кто-то может дать некоторые идеи по этим вопросам.

Спасибо и всего наилучшего!

Тим
источник
2
Большинство ответов и комментариев здесь сосредоточены на более конкретном вопросе к концу. Это просто признак того, что анализ временных рядов - это гораздо больше, чем анализ Бокса-Дженкинса или ARIMA. Целые области анализа временных рядов имеют совершенно другую (или, по крайней мере, более общую) направленность. Модели ненаблюдаемых компонентов являются лишь одним из нескольких примеров.
Ник Кокс

Ответы:

17

Я действительно думаю, что это хороший вопрос и заслуживает ответа. Предоставленная ссылка написана психологом, который утверждает, что какой-то метод домашнего приготовления является лучшим способом анализа временных рядов, чем Box-Jenkins. Я надеюсь, что моя попытка ответить будет способствовать тому, чтобы другие, кто более осведомлен о временных рядах, внесли свой вклад.

Из его вступления похоже, что Дарлингтон отстаивает подход к подгонке модели AR по методу наименьших квадратов. То есть, если вы хотите подогнать модель к временному ряду , вы можете просто регрессировать ряд в серии с помощью lag , lag и т. д. до lag , используя обычную множественную регрессию. Это, безусловно, разрешено; в R это даже опция в функции. Я проверил это, и он имеет тенденцию давать аналогичные ответы на метод по умолчанию для подгонки модели AR в R.z t z t 1 2 k

zt=α1zt1++αkztk+εt
ztzt12kar

Он также выступает за регрессию на такие вещи, как или полномочия чтобы найти тренды. Опять же, это абсолютно нормально. Об этом говорится во многих книгах временного ряда, например, Шамуэй-Стоффер и Каупертвейт-Меткалф. Как правило, анализ временных рядов может выполняться по следующим направлениям: вы находите тренд, удаляете его, а затем подгоняете модель к остаткам. T Tzttt

Но, похоже, он также выступает за перебор, а затем использует уменьшение среднеквадратичной ошибки между подобранными рядами и данными в качестве доказательства того, что его метод лучше. Например:

Я чувствую, что коррелограммы уже устарели. Их основная цель состояла в том, чтобы позволить работникам угадать, какие модели будут лучше всего соответствовать данным, но скорость современных компьютеров (по крайней мере, в регрессии, если не в подборе моделей временных рядов) позволяет работнику просто подобрать несколько моделей и точно понять, как каждый соответствует измерению по среднеквадратической ошибке. [Вопрос об использовании заглавной буквы не имеет отношения к этому выбору, поскольку оба метода одинаково восприимчивы к этой проблеме.]

Это не очень хорошая идея, поскольку предполагается, что тест модели заключается в том, насколько хорошо она может прогнозировать, а не в том, насколько она соответствует существующим данным. В своих трех примерах он использует «скорректированную среднеквадратичную ошибку» в качестве критерия качества соответствия. Конечно, чрезмерная подгонка модели приведет к уменьшению погрешности в выборке, поэтому его утверждение о том, что его модели «лучше», потому что они имеют среднюю RMSE, неверно.

Короче говоря, поскольку он использует неправильный критерий для оценки того, насколько хороша модель, он приходит к неверным выводам о регрессии и ARIMA. Держу пари, что если бы он проверил предсказательную способность моделей, ARIMA вышел бы на первое место. Возможно, кто-то может попробовать это, если у него есть доступ к книгам, которые он упоминает здесь .

[Дополнительный: чтобы узнать больше об идее регрессии, вы можете проверить старые книги временных рядов, написанные до того, как ARIMA стала самой популярной. Например, Kendall, Time-Series , 1973, глава 11, имеет целую главу об этом методе и сравнениях с ARIMA.]

Flounderer
источник
Вопрос в том, каковы (присущие) различия?
hbaghishani
Насколько я могу судить, автор никогда не описывал свой метод домашнего приготовления в рецензируемой публикации, а ссылки на статистическую литературу и из нее кажутся минимальными, а его основные публикации по методологическим темам относятся к 70-м годам. Строго говоря, ничто из этого не «доказывает» ничего, но без достаточного времени и опыта для самостоятельной оценки претензий, я бы крайне неохотно использовал любую из них.
Гала
@hbaghishani, существенное различие заключается в том, что автокоррелированные данные, то есть внутри каждой серии искажают взаимно-корреляционную интерпретацию. Кроме того, следует учитывать / исправлять нарушения Гаусса, например, постоянное среднее значение ошибок, постоянная дисперсия во времени, постоянные параметры во времени.
IrishStat
@flounderer Люди пишут учебники, чтобы продать их и пожинать плоды. Иногда они включают анахронические методы, которые преподаются неправильно, потому что раньше считалось, что они правильные. Чтобы увеличить продажи, издатель часто требует (из моего личного опыта) устаревшей, но неправильной методологии, потому что эти методы включены в учебную программу.
IrishStat
@IrishStat моделирование автокоррелированных данных может быть сделано с помощью моделей динамической регрессии. Кроме того, другие модели, такие как смешанные модели, могут быть использованы для таких данных. Поэтому я не думаю, что эта особенность является существенной разницей.
hbaghishani
7

Профессор Э. Парзен, возможно, несколько завидовал тому, что он не предлагал инновационные методы Бокса и Дженкинса, предложил такой подход переоснащения, а затем ушел в отставку. Он дает сбой по многим причинам (многие из которых Flounderer суммировал), в том числе не идентифицируя и не исправляя импульсы, сдвиги уровней, сезонные импульсы и тенденции местного времени. Кроме того, необходимо учитывать изменения параметров во времени или изменения дисперсии ошибок во времени.

Я написал статью, которая может вас заинтересовать. Она называется «Регрессия против Бокса-Дженкинса» и доступна по адресу http://www.autobox.com/cms/index.php/afs-university/intro-to-forecasting. / doc_download / 24-регрессионного против-Бокса-Дженкинса

Один комментарий о процедуре Дарлингтона, отражающей время, время * время, время * время * время * время в качестве предикторов. В отсутствие Обнаружения Вмешательства, приводящего к изоляции эффектов выброса, вполне возможно (и неправильно!) Сделать вывод для более высоких степеней времени. Остерегайтесь статистиков, выполняющих статистический анализ, так как вы опасаетесь статистиков, выполняющих операции на головном мозге. Справедливости ради можно также добавить, что остерегайтесь статистиков / математиков, не относящихся к временным рядам, которые пытаются провести анализ временных рядов с ограниченным обучением анализу временных рядов.

Другие постеры (в частности, whuber) в этом списке неоднократно предостерегали от использования этого «подходящего подхода», в основном в одномерной обстановке. Это предупреждение также относится к причинным моделям.

Надеюсь это поможет.

IrishStat
источник