После того, как модель ARMA подгоняется к временному ряду, обычно проверяют невязки с помощью теста Portmanteau Ljung-Box (среди других тестов). Тест Льюнга-Бокса возвращает значение ap. У него есть параметр h , который представляет собой количество тестируемых лагов. В некоторых текстах рекомендуется использовать h = 20; другие рекомендуют использовать h = ln (n); большинство из них не говорят , что час использовать.
Вместо того, чтобы использовать одно значение для h , предположим, что я делаю тест Юнга-Бокса для всех h <50, а затем выбираю h, которое дает минимальное значение p. Разумный ли это подход? Какие преимущества и недостатки? (Один очевидный недостаток - увеличение времени вычислений, но здесь это не проблема.) Есть ли литература по этому поводу?
Чтобы немного уточнить .... Если тест дает р> 0,05 для всех h , то, очевидно, временные ряды (остатки) проходят тест. Мой вопрос касается того, как интерпретировать тест, если p <0,05 для некоторых значений h, а не для других значений.
источник
Ответы:
Ответ определенно зависит от того: для чего на самом деле пытаются использовать тест?Q
Общая причина заключается в том, чтобы: быть более или менее уверенным в совместной статистической значимости нулевой гипотезы об отсутствии автокорреляции вплоть до запаздывания (альтернативно, предполагая, что у вас есть что-то, близкое к слабому белому шуму ), и построить скупую модель, имея как можно меньше количество параметров, насколько это возможно.h
Обычно данные временных рядов имеют естественную сезонную структуру, поэтому практическим практическим правилом было бы установить чтобы удвоить это значение. Другой - это горизонт прогнозирования, если вы используете модель для прогнозирования потребностей. Наконец, если вы обнаружите некоторые существенные отклонения в более поздних лагах, попробуйте подумать об исправлениях (это может быть связано с некоторыми сезонными эффектами или данные не были скорректированы для выбросов).h
Это совместный тест значимости , поэтому, если выбор основан на данных, то почему я должен заботиться о некоторых небольших (случайных?) Отклонениях с любой задержкой меньше , предполагая, что она, конечно, намного меньше (мощность теста вы упомянули). В поисках простой, но актуальной модели, я предлагаю информационные критерии, как описано ниже.ч н нh h n
Так что это будет зависеть от того, насколько далеко это произойдет. Недостатки дальних отклонений: больше параметров для оценки, меньше степеней свободы, худшая прогностическая сила модели.
Попробуйте оценить модель, включая части MA и \ или AR, в лаге, где происходит вылет, и дополнительно посмотрите на один из информационных критериев (AIC или BIC, в зависимости от размера выборки), это поможет вам лучше понять, какая модель более экономный. Любые упражнения по прогнозированию вне выборки также приветствуются здесь.
источник
Предположим, что мы указываем простую модель AR (1) со всеми обычными свойствами,
Обозначим теоретическую ковариацию ошибки как
Если бы мы могли наблюдать член ошибки, то образец автокорреляции члена ошибки определяется как
где
Но на практике мы не соблюдаем срок ошибки. Таким образом, автокорреляция выборки, относящаяся к члену ошибки, будет оценена с использованием остатков от оценки, как
Q-статистика Бокса-Пирса (Ljung-Box Q - это просто асимптотически нейтральная ее масштабированная версия)
Наша проблема состоит в том, можно ли сказать , что асимптотически имеет распределение хи-квадрат (при нулевом значении отсутствия автокорреляции в члене ошибки) в этой модели. Чтобы это произошло, каждый из должен быть асимптотически стандартным Normal. Один из способов проверить это - проверить, имеет ли такое же асимптотическое распределение, что и (который построен с использованием истинных ошибок и, следовательно, имеет желаемое асимптотическое поведение при нулевом значении).√QБ П N--√ρ^J √N--√ρ^ N--√ρ~
√
У нас есть это
где - последовательная оценка. Такβ^
Предполагается, что выборка является стационарной и эргодической, и предполагается, что моменты существуют до желаемого порядка. Поскольку оценка является последовательной, этого достаточно для того, чтобы две суммы обнулились. Итак, мы заключаемβ^
Это подразумевает, что
Но это не гарантирует автоматически, что сходится к √N--√ρ^J N--√ρ~J (в распределении) (думаю, что теорема о непрерывном отображении здесь не применима, поскольку преобразование, применяемое к случайным переменным, зависит от ) , Для того чтобы это произошло, нам нужноN
(знаменатель -tilde или hat- будет сходиться к дисперсии члена ошибки в обоих случаях, поэтому он нейтрален для нашей проблемы).γ0
У нас есть
Таким образом, вопрос заключается в следующем: действительно ли эти две суммы, умноженные на , стремятся к нулю с вероятностью, так что мы останемся с асимптотически? √n−−√ n−−√γ^j=n−−√γ~j
На вторую сумму имеем
Так как сходится к случайной переменной, а согласованна, это приведет к нулю. β[n−−√(β^−β)] β^
Что касается первой суммы, то и здесь мы имеем, что сходится к случайной переменной, и поэтому имеем[n−−√(β^−β)]
Первое ожидаемое значение равно нулю в предположениях стандартной модели AR (1). Но второго ожидаемого значения нет , так как зависимая переменная зависит от прошлых ошибок.E[utyt−j−1]
Таким образом, не будет иметь такого же асимптотического распределения, как . Но асимптотическое распределение последнего является стандартным нормальным, которое приводит к распределению хи-квадрат при возведении в квадрат rvn−−√ρ^j n−−√ρ~j
Поэтому мы приходим к выводу, что в чистой модели временных рядов нельзя сказать, что статистика Бокса-Пирса Q и Льюнга-Бокса Q имеет асимптотическое распределение хи-квадрат, поэтому тест теряет свое асимптотическое обоснование.
Это происходит потому, что правая переменная (здесь отставание зависимой переменной) по конструкции не является строго экзогенной по отношению к члену ошибки, и мы обнаружили, что такая строгая экзогенность необходима для того, чтобы Q-статистика BP / LB имела постулированное асимптотическое распределение.
Здесь правая переменная только «предопределена», и тогда критерий Бреуша-Пагана является действительным. (полный набор условий, необходимых для асимптотически верного теста, см. Hayashi 2000, p. 146-149).
источник
Перед тем, как сосредоточиться на «правильном» h (который выглядит скорее мнением, чем жестким правилом), убедитесь, что «лаг» определен правильно.
http://www.stat.pitt.edu/stoffer/tsa2/Rissues.htm
Цитирую раздел под номером 4 в приведенной выше ссылке:
«.... p-значения, показанные для статистического графика Льюнга-Бокса, являются неправильными, потому что степени свободы, используемые для вычисления p-значений, являются лагом, а не лагом - (p + q). То есть используемая процедура НЕ принимает во внимание тот факт, что остатки от подобранной модели. И ДА, по крайней мере, один разработчик ядра R знает это .... "
Изменить (23.01.2011): Вот статья Бернса, которая может помочь:
http://lib.stat.cmu.edu/S/Spoetry/Working/ljungbox.pdf
источник
Тема «Тестирование на автокорреляцию: метод Юнга-Бокса против Бреуша-Годфри» показывает, что тест Юнга-Бокса по существу неприменим в случае авторегрессионной модели. Это также показывает, что вместо этого следует использовать тест Бреуша-Годфри. Это ограничивает актуальность вашего вопроса и ответов (хотя ответы могут включать в себя, как правило, хорошие моменты).
источник
Эсканциано и Лобато сконструировали тест portmanteau с автоматическим выбором запаздывания на основе данных на основе теста Пирса-Бокса и его уточнений (которые включают тест Льюнга-Бокса).
Суть их подхода состоит в том, чтобы объединить критерии AIC и BIC - общие для идентификации и оценки моделей ARMA - для выбора оптимального количества используемых лагов. Во введении они предполагают, что, «интуитивно,« тест, проводимый с использованием критерия BIC, способен должным образом контролировать ошибку типа I и является более мощным, когда последовательная корреляция присутствует в первом порядке ». Вместо этого тесты на основе AIC более эффективны против последовательной корреляции высокого порядка. Таким образом, их процедура выбирает выбор лага BIC-типа в случае, когда автокорреляции кажутся небольшими и присутствуют только в младшем порядке, а секция лага AIC-типа в противном случае.
Тест реализован в
R
пакетеvrtest
(см. ФункциюAuto.Q
).источник
Первый должен быть из авторской книги Бокса, Дженкинса и Рейнселя. Анализ временных рядов: прогнозирование и контроль. 3-е изд. Энглвудские Утесы, Нью-Джерси: Прентис Холл, 1994 год. Однако вот что они говорят о лагах на стр.314:
Это не сильный аргумент или предложение, но люди продолжают повторять его из одного места в другое.
Вторым параметром задержки является Tsay, RS Анализ финансовых временных рядов. 2-е изд. Хобокен, Нью-Джерси: John Wiley & Sons, Inc., 2005, вот что он написал на стр.33:
Это несколько более сильный аргумент, но нет описания того, какое исследование было сделано. Так что я бы не стал принимать это за чистую монету. Он также предупреждает о сезонности:
Подводя итог, если вам просто нужно подключить некоторое время к тесту и двигаться дальше, тогда вы можете использовать любой из этих параметров, и это нормально, потому что именно так поступает большинство практиков. Мы либо ленивы, либо, скорее, у нас нет времени на это. В противном случае вам придется провести собственное исследование силы и свойств статистических данных для рядов, с которыми вы имеете дело.
ОБНОВИТЬ.
Вот мой ответ на комментарий Ричарда Харди и его ответ, который относится к другой теме в CV, начатой им. Вы можете видеть, что изложение в принятом (самим Ричердом Харди) ответе в этой теме явно основано на модели ARMAX, т.е. модели с экзогенными регрессорами :ИксT
Тем не менее, ОП не указал, что он делает ARMAX, напротив, он явно упоминает ARMA:
Одной из первых работ, которые указывали на потенциальную проблему с тестом LB, была Dezhbaksh, Hashem (1990). « Неправильное использование тестов последовательной корреляции в динамических линейных моделях », Обзор экономики и статистики, 72, 126–132. Вот выдержка из статьи:
Как видите, он не возражает против использования теста LB для моделей с чистыми временными рядами, таких как ARMA. См. Также обсуждение в руководстве стандартного инструмента эконометрики EViews:
Да, вы должны быть осторожны с моделями ARMAX и тестом LB, но вы не можете сделать общее заявление о том, что тест LB всегда неверен для всех серий авторегрессии.
ОБНОВЛЕНИЕ 2
Ответ Алекоса Пападопулоса показывает, почему тест Юнга-Бокса требует строгого предположения об экзогенности . Он не показывает это в своем посте, но тест Бреуша-Гпдфри (еще один альтернативный тест) требует только слабой экзогенности , что, конечно, лучше. Это то , что Грин, Эконометрика, 7-е изд. говорит о различиях между тестами, с.923:
источник
... h должно быть как можно меньше, чтобы сохранить любую мощность, которую тест LB может иметь в данных обстоятельствах. По мере увеличения h мощность падает. Тест LB - ужасно слабый тест; у вас должно быть много образцов; n должно быть ~> 100, чтобы иметь смысл. К сожалению, я никогда не видел лучшего теста. Но, возможно, один существует. Кто-нибудь знает об этом?
Paul3nt
источник
Там нет правильного ответа на этот вопрос, который работает в любой ситуации по причинам, о которых другие говорили, что это будет зависеть от ваших данных.
Тем не менее, после попытки выяснить, как воспроизвести результат в Stata в RI, можно сказать, что по умолчанию реализация Stata использует: . Либо половина числа точек данных минус 2, либо 40, в зависимости от того, что меньше.м я н ( н2- 2 , 40 )
Все значения по умолчанию, конечно, неверны, и это определенно будет неправильно в некоторых ситуациях. Во многих ситуациях это не может быть плохим местом для начала.
источник
Позвольте мне предложить вам наш пакет R hwwntest . В нем реализованы тесты белого шума на основе вейвлетов, которые не требуют каких-либо параметров настройки и имеют хороший статистический размер и мощность.
Кроме того, я недавно нашел «Мысли о тесте Юнга-Бокса», которые являются отличным обсуждением этой темы от Роба Хиндмана.
Обновление: учитывая альтернативное обсуждение в этой теме, касающееся ARMAX, еще одним стимулом для рассмотрения hwwntest является наличие теоретической степенной функции для одного из тестов против альтернативной гипотезы модели ARMA (p, q).
источник