AIC, BIC, CIC, DIC, EIC, FIC, GIC, HIC, IIC - Могу ли я использовать их взаимозаменяемо?

47

На стр. 34 из его PRNN Брайан Рипли комментирует, что «АИК был назван Акаике (1974) как« Информационный критерий », хотя, как представляется, принято считать, что А означает Акаике». Действительно, при введении статистики AIC Akaike (1974, с.719) объясняет, что

"IC stands for information criterion and A is added so that similar statistics, BIC, DIC
etc may follow".

Рассматривая эту цитату как прогноз, сделанный в 1974 году, интересно отметить, что всего за четыре года Akaike (1977, 1978) и Schwarz (1978) предложили два типа статистики BIC (байесовская IC). Это заняло Spiegelhalter et al. (2002) гораздо дольше придумывать DIC (Deviance IC). Хотя появление критерия CIC не было предсказано Akaike (1974), было бы наивно полагать, что оно никогда не рассматривалось. Он был предложен Карлосом К. Родригесом в 2005 году. (Обратите внимание, что CIC Р. Тибширани и CIC (инфляция-критерий ковариантности) - это другое.)

Я знал, что EIC (Эмпирический IC) был предложен людьми Университета Монаш примерно в 2003 году. Я только что обнаружил Критерий Сфокусированной Информации (FIC). В некоторых книгах Hannan и Quinn IC называются HIC, см., Например, эту ). Я знаю, что должен быть GIC (Generalized IC), и я только что обнаружил критерий инвестирования в информацию (IIC). Есть NIC, TIC и многое другое.

Я думаю, что я мог бы охватить остальную часть алфавита, поэтому я не спрашиваю, где последовательность AIC, BIC, CIC, DIC, EIC, FIC, GIC, HIC, IIC, ... остановок, или какие буквы алфавита имеют не использовался или использовался, по крайней мере, дважды (например, E в EIC может означать расширенный или эмпирический). Мой вопрос проще, и я надеюсь, что более практичным. Могу ли я использовать эту статистику взаимозаменяемо, игнорируя конкретные предположения, в которых они были получены, конкретные ситуации, в которых они должны были применяться, и т. Д.?

Этот вопрос частично мотивирован Burnham & Anderson (2001), который пишет:

...the comparison of AIC and BIC model selection ought to be based on their performance 
properties such as mean square error for parameter estimation (includes prediction) and 
confidence interval coverage: tapering effects or not, goodness-of-fit issues, 
derivation of theory is irrelevant as it can be frequentist or Bayes. 

Глава 7 монографии Хиндмана и др. По экспоненциальному сглаживанию, похоже, следует совету БА при рассмотрении того, насколько хорошо работают пять альтернативных интегральных схем (AIC, BIC, AICc, HQIC, LEIC) при выборе модели, которая лучше всего прогнозирует (как измерено). вновь предложенной мерой ошибки, названной MASE), чтобы сделать вывод, что AIC чаще была лучшей альтернативой. (HQIC был назван лучшим селектором модели только один раз.)

Я не уверен, какова полезная цель исследовательских упражнений, которые неявно обрабатывают все ICc, как если бы они были получены, чтобы ответить на один и тот же вопрос при эквивалентных наборах предположений. В частности, я не уверен, насколько полезно исследовать прогностическую эффективность непротиворечивого критерия для определения порядка авторегрессии (которую Ханнан и Куинн вывели для эргодических стационарных последовательностей), используя его в контексте нестационарной экспоненциальной модели сглаживания, описанные и проанализированные в монографии Hyndman et al. Я что-то здесь упускаю?

Рекомендации:

Akaike, H. (1974), Новый взгляд на идентификацию статистической модели, IEEE Транзакции по автоматическому управлению 19 (6), 716-723.

Akaike, H. (1977), О принципе максимизации энтропии, в PR Кришнаи, изд., Приложения статистики , Vol. 27, Амстердам: Северная Голландия, с. 27-41.

Akaike, H. (1978), Байесовский анализ процедуры минимальной AIC, Летопись Института статистической математики 30 (1), 9-14.

Burnham, KP & Anderson, DR (2001) Информация Кульбака-Лейблера как основа для сильного вывода в экологических исследованиях, Wildlife Research 28, 111-119

Хиндман Р.Дж., Келер А.Б., Орд, Дж.К. и Снайдер Р.Д. Прогнозирование с экспоненциальным сглаживанием: подход в пространстве состояний. Нью-Йорк: Спрингер, 2008

Рипли Б. Д. Распознавание образов и нейронные сети . Кембридж: издательство Кембриджского университета, 1996

Schwarz, G. (1978), Оценка размерности модели, Annals of Statistics 6 (2), 461-464.

Spiegelhalter, DJ, Best, NG, Carlin, BP и van der Linde, A. (2002), Байесовские меры сложности модели и т (с обсуждением), Журнал Королевского статистического общества. Серия B (Статистическая методология) 64 (4), 583-639.

Hibernating
источник
9
В беседе с Финдли и Парзеном ( projecteuclid.org/download/pdf_1/euclid.ss/1177010133 ) Акаике рассказала, что AIC использовался помощником в ее программе FORTRAN. Имена переменных, такие как IC, по умолчанию подразумевают целочисленные величины; такого префикса, как A, было достаточно, чтобы указать компилятору, что количество является реальным. Хотя он и не хотел «Акаике», он понял, что это также означает просто «ан». (Между прочим, хотя эта ссылка как бы является противоядием от одной неверной истории, она увековечивает неправильное написание Мальвы ", как и Мэллова.)
Ник Кокс
Этот вопрос заставляет задуматься об «алфавитном экспериментальном дизайне»: doe.soton.ac.uk/elearning/section3.6.jsp
kjetil b halvorsen

Ответы:

36

Насколько я понимаю, AIC, DIC и WAIC все оценивают одно и то же: ожидаемое отклонение вне выборки, связанное с моделью. Это также то же самое, что оценки перекрестной проверки. В Gelman et al. (2013), они говорят это явно:

Естественным способом оценки ошибки прогнозирования вне выборки является перекрестная проверка (см. Vehtari and Lampinen, 2002, для байесовской перспективы), но исследователи всегда искали альтернативные меры, поскольку перекрестная проверка требует повторных подгонок модели и может столкнуться с проблемой с разреженными данными. Только по практическим причинам остается место для простых поправок смещения, таких как AIC (Akaike, 1973), DIC (Spiegelhalter, Best, Carlin и van der Linde, 2002, van der Linde, 2005) и, совсем недавно, WAIC (Watanabe, 2010), и все это можно рассматривать как приближение к различным версиям перекрестной проверки (Stone, 1977).

BIC оценивает что-то другое, что связано с минимальной длиной описания. Гельман и соавт. сказать:

BIC и его варианты отличаются от других рассмотренных здесь информационных критериев тем, что мотивируются не оценкой предсказательной силы, а целью аппроксимации предельной плотности вероятности данных p (y) в рамках модели, которую можно использовать для оценить относительные апостериорные вероятности в условиях сравнения дискретных моделей.

К сожалению, я ничего не знаю о других перечисленных вами критериях.

Можете ли вы использовать AIC-подобные информационные критерии взаимозаменяемо? Мнения могут различаться, но, учитывая, что AIC, DIC, WAIC и перекрестная проверка оценивают одно и то же, то да, они более или менее взаимозаменяемы. БИК отличается, как отмечено выше. Я не знаю о других.

Почему их больше одного?

  • AIC работает хорошо, когда у вас есть оценка максимального правдоподобия и плоские априорные значения, но на самом деле нечего сказать о других сценариях. Штраф также слишком мал, когда число параметров приближается к количеству точек данных. AICc переоценивает это, что может быть хорошим или плохим в зависимости от вашей перспективы.

  • DIC использует меньшее наказание, если части модели сильно ограничены априорами (например, в некоторых многоуровневых моделях, где оцениваются компоненты дисперсии). Это хорошо, так как сильно ограниченные параметры на самом деле не дают полной степени свободы. К сожалению, формулы, обычно используемые для DIC, предполагают, что апостериор по существу гауссовский (то есть, что он хорошо описывается своим средним значением), и поэтому в некоторых ситуациях можно получить странные результаты (например, отрицательные штрафы).

  • WAIC использует всю заднюю плотность более эффективно, чем DIC, поэтому Gelman et al. предпочитаю это, хотя в некоторых случаях это может быть трудно вычислить.

  • Перекрестная проверка не опирается на какую-либо конкретную формулу, но она может быть вычислительно запретной для многих моделей.

На мой взгляд, решение о том, какой из критериев, подобных AIC, использовать, целиком зависит от такого рода практических вопросов, а не от математического доказательства того, что один из них будет лучше другого.

Рекомендации :

Гельман и соавт. Понимание прогностических информационных критериев для байесовских моделей. Доступно по адресу http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.295.3501&rep=rep1&type=pdf.

Дэвид Дж. Харрис
источник
3
Помимо ссылки Gelman et al. Понимание прогностических информационных критериев для байесовских моделей см. Также в более поздней работе Aki Vehtari, Andrew Gelman и Jonah Gabry (2016). Практическая оценка Байесовской модели с использованием перекрестной проверки без участия и WAIC. В области статистики и вычислений, doi: 10.1007 / s11222-016-9696-4. Препринт arXiv arXiv: 1507.04544. arxiv.org/abs/1507.04544 В этом документе также показано, что для многих моделей надежная перекрестная проверка может быть рассчитана за незначительное время.
Аки Вехтари
4

«Взаимозаменяемо» - слишком сильное слово. Все они являются критериями, которые стремятся сравнить модели и найти «лучшую» модель, но каждый определяет «лучшие» по-разному и может определять разные модели как «лучшие».

Эмиль Фридман
источник
0

«Предложить референдум». Просто чтобы проголосовать! ;-) Мне понравились CAIC (Bozdogan, 1987) и BIC исключительно из моей личной практики, потому что эти критерии дают серьезный штраф за сложность, мы получили больше скупости, но я всегда отображал список хороших моделей - до дельты 4-6 -8 (вместо 2). На этапе исследования параметров (поскольку у нас есть «хорошее растяжение моделей-кандидатов»), усреднение по ММ (B & A) часто почти ничего не меняет. Я немного скептически отношусь к классическим AIC и AICc (H & T, популяризируемый B & A), поскольку они часто дают очень «толстый слой крема». ;-)

Иван Кшнясев
источник