Различные определения AIC

12

Из Википедии есть определение информационного критерия Акаике (AIC) как , где - число параметров, а \ log L - логарифмическая вероятность модели.k log LAIC=2k2logLklogL

Тем не менее, наша эконометрика отмечает в уважаемом университете, что AIC=log(σ^2)+2kT . Здесь σ^2 - оценочная дисперсия для ошибок в модели ARMA, а T - количество наблюдений в наборе данных временного ряда.

Последнее определение эквивалентно первому, но просто настроено для моделей ARMA? Или есть какой-то конфликт между этими двумя определениями?

PIR
источник
3
Для справки: критерий единственного числа, критерии множественного числа. (Отредактировано соответственно.)
Ник Кокс

Ответы:

15

Формула, которую вы цитируете из своих заметок, не совсем AIC.

AIC - это .2logL+2k

Здесь я приведу схему приблизительного вывода, который достаточно ясно дает понять, что происходит.

Если у вас есть модель с независимыми нормальными ошибками с постоянной дисперсией,

Lσne12σ2εi2

который может быть оценен при максимальной вероятности как

(σ^2)n/2e12nσ^2/σ^2(σ^2)n/2e12n(σ^2)n/2

(при условии, что оценка является оценкой ML)σ2

Так что (вплоть до смещения на постоянную)2logL+2k=nlogσ^2+2k

Теперь в модели ARMA, если действительно велико по сравнению с и , вероятность может быть аппроксимирована такой гауссовой структурой (например, вы можете написать ARMA приблизительно как более длинную AR и условие на достаточном количестве терминов, чтобы записать эту AR как модель регрессии), так что с вместо :p q TTpqTn

AICTlogσ^2+2k

следовательно

AIC/Tlogσ^2+2k/T

Теперь, если вы просто сравниваете AIC, это деление на вообще не имеет значения, поскольку оно не меняет порядок значений AIC.T

Однако, если вы используете AIC для какой-то другой цели, которая зависит от фактического значения различий в AIC (например, для выполнения многомодельного вывода, как описано Бернхэмом и Андерсоном), то это имеет значение.

Многочисленные эконометрические тексты, кажется, используют эту форму AIC / T. Как ни странно, некоторые книги, кажется, ссылаются на Hurvich и Tsai 1989 или Findley 1985 для этой формы, но Hurvich & Tsai и Findley, кажется, обсуждают оригинальную форму (хотя у меня есть только косвенное указание на то, что Findley делает сейчас, так что, возможно, есть что-то в Финдли на это).

Такое масштабирование может быть выполнено по ряду причин - например, временные ряды, особенно высокочастотные временные ряды, могут быть очень длинными, а обычные AIC могут иметь тенденцию становиться громоздкими, особенно если очень мала. (Есть и другие возможные причины, но, поскольку я действительно не знаю причину, по которой это было сделано, я не начну перечислять все возможные причины.)σ2

Возможно, вы захотите взглянуть на список фактов и заблуждений АИК Роба Хиндмана , в частности пункты с 3 по 7. Некоторые из этих пунктов могут привести к тому, что вы будете хотя бы немного осторожнее полагаться на слишком сильное приближение по вероятности Гаусса, но может быть, есть лучшее оправдание, чем я предлагаю здесь.

Я не уверен, что есть веская причина использовать это приближение для логарифмической вероятности, а не для фактического AIC, поскольку многие пакеты временных рядов в наши дни имеют тенденцию вычислять (/ максимизировать) фактическую логарифмическую вероятность для моделей ARMA. Кажется, нет причин не использовать его.

Glen_b - Восстановить Монику
источник
1
Рано или поздно каждое обсуждение любого * IC превращается в «Это критерий, который вы должны использовать, за исключением того, что он часто дает неправильный ответ в подобных обстоятельствах». Просто быть ироничным, нисколько не критично относящимся к типично полезному ответу. Это так же, как в реальной жизни, где некоторые общие принципы, такие как «любить всех», обычно временно игнорируются другими советами, если кто-то пытается избить вас или сорвать с вас.
Ник Кокс
1
n
2

Я считаю, что это основано на предположении о нормальных ошибках. В эконометрике вы используете асимптотику, особенно в приложениях временных рядов, использующих AIC. Как следствие, нормальное предположение должно выполняться асимптотически, чтобы оправдать эту (асимптотическую) схему выбора модели.

ln(L)=(T/2)ln(2π)(T/2)ln(σ2)(1/2σ2)(xiμ)E(X)=μх 1 , . , , , х ТVar(X)=σ2если ваши данные взяты из X. В дальнейшем мы пренебрегаем первым слагаемым, поскольку наблюдаемый образец не влияет на него.x1,...,xT

Просто используйте более общую (первую) формулу и подключите для нормальной вероятности. Первый член можно игнорировать (он является константой независимо от выбора регрессора). Второе слагаемое становится . Третье слагаемое становится , где мы использовали . Опять же, здесь не оправдано использование коррекции конечной выборки, поскольку эта оценка действительна только асимптотически, если ошибки не являются нормальными. Поскольку мы не знаем , мы должны оценить третий член как = T.Т л н ( σ 2 ) ( 1 / σ 2 ) ( Т σ 2 ) σ 2 = Т - 1 Σ ( х я - ˉ х ) σ 2 ( 1 / σ 2 ) ( Т σ 2 ) = ( 1 / σ 2 ) ( Т σLTln(σ2)(1/σ2)(Tσ^2)σ^2=T1(xix¯)σ2(1/σ2)(Tσ^2)=(1/σ^2)(Tσ^2)

AIC=2k+Tln(σ2)+11TTAICAIC/T

Иеремия К
источник