Я понимаю, что если процесс зависит от предыдущих значений самого себя, то это процесс AR. Если это зависит от предыдущих ошибок, то это процесс МА.
Когда произойдет одна из этих двух ситуаций? Есть ли у кого-нибудь убедительный пример, освещающий основную проблему относительно того, что означает, что процесс лучше всего смоделировать как MA против AR?
time-series
autoregressive
moving-average
Мэтт О'Брайен
источник
источник
Ответы:
Одним из важных и полезных результатов является теорема о представлении Вольда (иногда называемая разложением Вольда), в которой говорится, что каждый ковариационно-стационарный временной ряд можно записать в виде суммы двух временных рядов, одного детерминированного и одного стохастического.YT
Второе слагаемое является бесконечной МА.
(Это также тот случай, когда обратимая МА может быть записана как бесконечный процесс AR.)
Это говорит о том, что если ряд является ковариантно-стационарным , и если мы предполагаем, что вы можете идентифицировать детерминированную часть, то вы всегда можете записать стохастическую часть как процесс MA. Точно так же, если MA удовлетворяет условию обратимости, вы всегда можете записать его как процесс AR.
Если у вас есть процесс, записанный в одной форме, вы часто можете преобразовать его в другую форму.
Таким образом, в некотором смысле, по крайней мере, для ковариационных стационарных рядов часто подходят либо AR, либо MA.
Конечно, на практике мы бы предпочли не очень большие модели. Если у вас есть конечная AR или MA, то и ACF, и PACF в конечном итоге распадаются геометрически (есть геометрическая функция, ниже которой будет лежать абсолютное значение любой функции), что будет означать хорошее приближение либо AR, либо МА в другой форме часто может быть достаточно коротким.
Таким образом, при стационарном условии ковариации и в предположении, что мы можем идентифицировать детерминированные и стохастические компоненты, часто и AR, и MA могут быть подходящими.
Методология Бокса и Дженкинса ищет экономную модель - модель AR, MA или ARMA с несколькими параметрами. Обычно ACF и PACF используются для того, чтобы попытаться идентифицировать модель путем преобразования в стационарность (возможно, путем различий), определения модели по внешнему виду ACF и PACF (иногда люди используют другие инструменты), подгонки модели и затем изучения структура остатков (обычно через ACF и PACF на остатки) до тех пор, пока ряд остатков не окажется достаточно совместимым с белым шумом. Часто будет несколько моделей, которые могут обеспечить разумное приближение к серии. (На практике часто рассматриваются другие критерии.)
Есть основания для критики такого подхода. В одном примере p-значения, возникающие в результате такого итеративного процесса, обычно не учитывают способ, которым была получена модель (путем просмотра данных); например, эту проблему можно хотя бы частично избежать, например, путем разделения образцов. Вторым примером критики является сложность фактического получения стационарного ряда - в то время как во многих случаях можно преобразовать, чтобы получить ряд, который кажется разумно совместимым со стационарностью, обычно это не тот случай, когда это действительно так (подобные проблемы являются общими проблема со статистическими моделями, хотя, возможно, иногда это может быть больше проблемой здесь).
[Отношения между AR и соответствующей бесконечной MA обсуждаются в « Прогнозировании Хиндмана и Афанасопулоса : принципы и практика» , здесь ]
источник
Я могу предоставить то, что я считаю убедительным ответом на первую часть вопроса («откуда М.А.?»), Но в настоящее время обдумываю столь же убедительный ответ на вторую часть вопроса («откуда А.Р.?»).
Рассмотрим серию, состоящую из цены закрытия (с учетом дробления и дивидендов) акции в последовательные дни. Цена закрытия каждого дня определяется на основе тренда (например, линейного по времени) плюс взвешенные эффекты ежедневных шоков предыдущих дней. Предположительно, влияние шока в день t-1 окажет более сильное влияние на цену в день t, чем шок в день t-2 и т. Д. Таким образом, логично, что цена закрытия акции в день t будет отражать тенденцию значение в день t плюс константа (менее 1) умноженной на взвешенную сумму шоков до дня t-1 (т. е. член ошибки в день t-1) (MA1), возможно, плюс константа (меньше 1) умноженная на взвешенную сумму ударов за день t-2 (то есть, слагаемое ошибки в день t-2) (MA2), ..., плюс новый шок в день t (белый шум). Этот тип модели кажется подходящим для серии моделирования, такой как фондовый рынок, где термин ошибки в день t представляет взвешенную сумму предыдущих и текущих шоков и определяет процесс MA. Я работаю над не менее убедительным обоснованием процесса исключительно AR.
источник
Это самый простой пример, который я мог бы предложить, чтобы помочь визуализировать процессы AR, MA и ARMA.
Обратите внимание, что это всего лишь наглядное пособие для введения в предмет и ни в коем случае не является достаточно строгим, чтобы учесть все возможные случаи.
Предположим следующее: у нас на соревновании есть два агента, которым поручено выполнить определенный вид действия (прыгать горизонтально вправо).
Ожидается, что «Человек» в среднем преодолеет расстояние «μ» со стандартным отклонением «𝛿» при каждом прыжке в соответствии с его / ее физической способностью. Однако человеку особенно не хватает умственной стойкости :), и его / ее производительность также зависит от того, превзошел ли предыдущий прыжок / встретился / превзошел его / ее ожидания.
«Машина» была разработана в соответствии с теми же характеристиками, что и вышеупомянутый человек, только с одним отличием - машина не имеет эмоций и не подвержена влиянию прошлых характеристик.
Кроме того, есть две игры, в которые должны играть оба агента, причем каждая игра включает в себя два прыжка:
«Финальный прыжок» оценивается на основе расстояния, пройденного в последнем прыжке после разминочного прыжка, результат которого игнорируется в соревновании, но доступен для наблюдения человеком. Последний прыжок начинается там, где начинается разминка.
«Комбинированный прыжок» забил на основе комбинированной дистанции, пройденной в начальном и последнем прыжках. Последний прыжок начинается там, где приземляется первый прыжок.
На приведенной ниже диаграмме показано, какая модель лучше всего описывает каждый из четырех сценариев, связанных с указанными выше участниками и играми.
источник
Итак, у вас есть одномерный временной ряд, и вы хотите смоделировать / предсказать его, верно? Вы решили использовать модель типа ARIMA.
Параметры зависят от того, что лучше для вашего набора данных. Но как ты узнал? Недавний подход - «Автоматическое прогнозирование временных рядов» Hyndman & Khandakar (2008) ( pdf ).
Алгоритм пробует разные версии p, q, P и Q и выбирает версию с наименьшим AIC, AICc или BIC. Она реализована в функции auto.arima () из прогнозного пакета R . Выбор информационного критерия зависит от того, какие параметры вы передаете в функцию.
Для линейной модели выбор модели с наименьшим значением AIC может быть эквивалентен перекрестной проверке с исключением одного.
Вы также должны убедиться, что у вас достаточно данных, по крайней мере, за четыре года.
Некоторые важные проверки:
Явный ответ на комментарий Firebug ниже: когда ваши данные это поддерживают.
источник
"My question is, when would one of either of these two situations occur? "