Есть ли основания предпочитать AIC или BIC другим?

222

AIC и BIC - оба метода оценки соответствия модели, оштрафованные за количество оцениваемых параметров. Насколько я понимаю, BIC штрафует модели за свободные параметры больше, чем AIC. Помимо предпочтений, основанных на строгости критериев, есть ли другие причины отдавать предпочтение AIC, а не BIC или наоборот?

russellpierce
источник
1
Я думаю, что более уместно называть это обсуждение «выбором» или «ковариацией». Для меня выбор модели намного шире, включая спецификацию распределения ошибок, формы функции связи и формы ковариат. Когда мы говорим об AIC / BIC, мы обычно находимся в ситуации, когда все аспекты построения модели являются фиксированными, кроме выбора ковариат.
6
Принятие решения о том, что конкретные ковариаты для включения в модель, обычно определяется термином «выбор модели», и в названии есть несколько книг с выбором модели, которые в первую очередь решают, какие ковариаты / параметры модели включить в модель.
Майкл Черник
Я не знаю, относится ли ваш вопрос конкретно к филогении (биоинформатике), но если это так, это исследование может дать некоторые соображения по этому аспекту: ncbi.nlm.nih.gov/pmc/articles/PMC2925852
Тлорин
Объединенный вопрос также спрашивает о KIC , пожалуйста, обновите текст вопроса и укажите определение KIC, предварительно со ссылкой.
smci
1
@smci Я добавил stats.stackexchange.com/questions/383923/…, чтобы люди могли поинтересоваться вопросами, связанными с KIC, если это будет интересно.
russellpierce

Ответы:

179

Ваш вопрос подразумевает, что AIC и BIC пытаются ответить на один и тот же вопрос, что не соответствует действительности. AIC пытается выбрать модель, которая наиболее адекватно описывает неизвестную, многомерную реальность. Это означает, что реальность никогда не находится в наборе рассматриваемых моделей-кандидатов. Напротив, BIC пытается найти ИСТИННУЮ модель среди множества кандидатов. Я нахожу довольно странным предположение, что реальность создается в одной из моделей, которые исследователи построили на этом пути. Это реальная проблема для BIC.

Тем не менее, есть много исследователей, которые говорят, что BIC лучше, чем AIC, используя моделирование восстановления модели в качестве аргумента. Эти моделирования состоят из генерации данных из моделей A и B, а затем подгонки обоих наборов данных к двум моделям. Переоснащение происходит, когда неправильная модель соответствует данным лучше, чем генерирующая. Смысл этих симуляций в том, чтобы увидеть, насколько хорошо AIC и BIC исправляют эти наложения. Обычно результаты указывают на тот факт, что AIC слишком либерален и все же часто предпочитает более сложную, неправильную модель, а не более простую, истинную модель. На первый взгляд эти симуляции кажутся действительно хорошими аргументами, но проблема с ними в том, что они бессмысленны для AIC. Как я уже говорил ранее, AIC не считает, что любая из тестируемых моделей-кандидатов на самом деле соответствует действительности. Согласно AIC, все модели являются приближением к реальности, и реальность никогда не должна иметь низкую размерность. По крайней мере, ниже, чем у некоторых моделей-кандидатов.

Я рекомендую использовать AIC и BIC. В большинстве случаев они соглашаются с предпочтительной моделью, а когда нет, просто сообщают об этом.

Если вы недовольны как AIC, так и BIC и у вас есть свободное время для инвестиций, посмотрите Минимальная длина описания (MDL), совершенно другой подход, который преодолевает ограничения AIC и BIC. Есть несколько показателей, вытекающих из MDL, таких как нормализованная максимальная вероятность или приближение информации Фишера. Проблема с MDL заключается в том, что он математически сложен и / или требует больших вычислительных ресурсов.

Тем не менее, если вы хотите придерживаться простых решений, хорошим способом оценки гибкости модели (особенно при равном количестве параметров, делающих AIC и BIC бесполезными) является создание Parametric Bootstrap, которое довольно просто реализовать. Вот ссылка на статью об этом.

Некоторые люди здесь выступают за использование перекрестной проверки. Я лично использовал это и ничего против этого не имею, но проблема в том, что выбор из правила вырезания выборки (оставлять один, K-сгиб и т. Д.) Является беспринципным.

Дэйв Келлен
источник
7
Различие можно рассматривать исключительно с математической точки зрения - BIC был получен как асимптотическое расширение log P (данных), где истинные параметры модели отбираются в соответствии с произвольным нигде не исчезающим ранее, AIC был аналогичным образом получен с фиксированными истинными параметрами
Ярослав Булатов
4
Вы сказали, что «есть много исследователей, которые говорят, что BIC лучше, чем AIC, используя в качестве аргумента симуляции восстановления модели. Эти симуляции состоят из генерации данных из моделей A и B, а затем подгонки обоих наборов данных к двум моделям». Не могли бы вы указать некоторые ссылки. Мне интересно о них! :)
deps_stats
2
Я не верю заявлениям в этом посте.
user9352
16
(-1) Отличное объяснение, но я бы хотел оспорить утверждение. @ Дэйв Келлен Не могли бы вы дать ссылку на то, где идея о том, что ИСТИННАЯ модель должна быть в наборе для BIC? Я хотел бы исследовать это, поскольку в этой книге авторы приводят убедительные доказательства того, что это не так.
gui11aume
2
Отличный ответ, но я категорически не согласен с утверждением «реальность никогда не должна иметь низкую размерность». Это зависит от того, к какой «науке» вы применяете свои модели
Дэвид
76

Несмотря на то, что AIC и BIC управляются оценкой максимального правдоподобия и штрафуют свободные параметры, пытаясь бороться с переоснащением, они делают это способами, которые приводят к существенно различному поведению. Давайте посмотрим на одну обычно представленную версию методов (в результате чего формируются нормально распределенные ошибки и другие предположения с хорошим поведением):

  • AIC = -2 * ln (вероятность) + 2 * k,

а также

  • БИК = -2 * ln (вероятность) + ln (N) * k,

где:

  • k = модельные степени свободы
  • N = количество наблюдений

Лучшая модель в сравниваемой группе - та, которая минимизирует эти оценки в обоих случаях. Ясно, что AIC не зависит напрямую от размера выборки. Кроме того, вообще говоря, AIC представляет опасность того, что он может соответствовать, в то время как BIC представляет опасность, что он может соответствовать, просто в силу того, как они штрафуют свободные параметры (2 * k в AIC; ln (N) * k в BIC). Диахронически, когда вводятся данные и оценки пересчитываются, при относительно низком N (7 и менее) BIC более терпим к свободным параметрам, чем AIC, но менее терпим при более высоком N (так как натуральный логарифм N превышает 2).

Кроме того, AIC направлена ​​на поиск наилучшей аппроксимирующей модели для неизвестного процесса генерирования данных (путем минимизации ожидаемой расчетной дивергенции KL ). Как таковая, она не может сходиться по вероятности к истинной модели (при условии, что она присутствует в оцениваемой группе), тогда как BIC действительно сходится, когда N стремится к бесконечности.

Таким образом, как и во многих методологических вопросах, предпочтение зависит от того, что вы пытаетесь сделать, какие другие методы доступны, а также от того, выделены ли какие-либо функции (сходимость, относительная толерантность к свободным параметрам, минимизация ожидаемой дивергенции KL). ), говорите с вашими целями.

Джон Л. Тейлор
источник
8
|t|>2|t|>log(n)
2
Хороший ответ, +1. Мне особенно нравится предостережение о том, присутствует ли истинная модель в оценочной группе. Я бы сказал, что «истинная модель» никогда не присутствует. (Box & Draper сказал, что «все модели являются ложными, но некоторые из них полезны», и Бернхем и Андерсон называют это «величинами сужающегося эффекта».) Именно поэтому я не впечатлен сближением BIC при нереалистичных предположениях и, более того, стремлением AIC в лучшем приближении среди моделей, которые мы на самом деле смотрим.
Стефан Коласса
68

Мое быстрое объяснение

  • AIC лучше всего подходит для прогнозирования, поскольку она асимптотически эквивалентна перекрестной проверке.
  • BIC лучше всего подходит для объяснения, так как позволяет согласованно оценивать основной процесс генерации данных.
Роб Хиндман
источник
AIC эквивалентна K-кратной перекрестной проверке, BIC эквивалентна перекрестной проверке уровня один-на-один. Тем не менее обе теоремы верны только в случае линейной регрессии.
5
mbq, это AIC / LOO (не LKO или K-fold), и я не думаю, что доказательство в Stone 1977 основывалось на линейных моделях. Я не знаю деталей результата BIC.
АРС
11
Ars правильно. Это AIC = LOO и BIC = K-кратный, где K - сложная функция размера выборки.
Роб Хиндман
Поздравляю, вы меня получили; Я спешил написать это, и поэтому я сделал эту ошибку, очевидно, именно так Роб написал. Тем не менее это из Шао 1995, где было предположение, что модель является линейной. Я проанализирую Стоуна, но все же я думаю, что вы, ars, можете быть правы, поскольку LOO в моей области имеет такую ​​же плохую репутацию, как и различные * IC.
В описании в Википедии ( en.wikipedia.org/wiki/… ) создается впечатление, что перекрестная проверка по K-кратности напоминает повторное моделирование для оценки стабильности параметров. Я могу понять, почему ожидается, что AIC будет стабильным с LOO (поскольку LOO может быть проведено исчерпывающе), но я не понимаю, почему BIC будет стабильным с K-кратным, если K также не является исчерпывающим. Делает ли комплексная формула, лежащая в основе значения K, исчерпывающей? Или что-то еще происходит?
Расселпирс
16

По моему опыту, BIC приводит к серьезным недостаткам, и AIC обычно работает хорошо, когда цель состоит в том, чтобы максимизировать прогностическую дискриминацию.

Фрэнк Харрелл
источник
1
Супер отложено, но так как это по-прежнему занимает высокое место в Google, не возражаете ли вы уточнить, в какой области вы работаете? Мне просто любопытно, есть ли какой-то эффект домена, на который мы должны обратить внимание.
августа
@verybadatthis: клиническая биостатистика (просто Google «Фрэнк Харрелл», у него есть веб-сайт)
Бен Болкер,
13

Информационный и доступный «вывод» AIC и BIC Брайана Рипли можно найти здесь: http://www.stats.ox.ac.uk/~ripley/Nelder80.pdf

Рипли приводит некоторые замечания относительно предположений, лежащих в основе математических результатов. Вопреки тому, что указывают некоторые другие ответы, Рипли подчеркивает, что AIC основан на предположении, что модель верна. Если модель не соответствует действительности, общие вычисления покажут, что «количество параметров» должно быть заменено более сложным значением. Некоторые ссылки приведены в слайдах Рипли. Отметим, однако, что для линейной регрессии (строго говоря, с известной дисперсией), как правило, более сложная величина упрощается, чтобы быть равной количеству параметров.

NRH
источник
3
(+1) Однако Рипли ошибается в том смысле, что говорит, что модели должны быть вложенными. Нет такого ограничения на исходный вывод Акаике, или, чтобы быть более понятным, на вывод, использующий AIC в качестве оценки расходимости Кульбака-Лейблера. Фактически, в статье, над которой я работаю, я показываю несколько «эмпирически», что AIC может даже использоваться для выбора модели ковариационных структур (различное количество параметров, явно не вложенные модели). Из тысяч симуляций временных рядов, которые я провел с различными ковариационными структурами, ни в одной из них AIC не ошибается ...
Néstor
... если "правильная" модель на самом деле находится на наборе моделей (это, однако, также подразумевает, что для моделей, над которыми я работаю, дисперсия оценки очень мала ... но это только техническая подробно).
Нестор
1
@ Нестор, я согласен. Суть в том, что модели являются вложенными, странная.
NRH
3
При выборе ковариационных структур для продольных данных (модели смешанных эффектов или обобщенных наименьших квадратов) AIC может легко найти неправильную структуру, если существует более 3 структур-кандидатов. Если, если их больше 3, вам придется использовать загрузчик или другие средства для корректировки неопределенности модели, вызванной использованием AIC для выбора структуры.
Фрэнк Харрелл
8

На самом деле, единственное отличие состоит в том, что BIC - это расширенный AIC для учета количества объектов (образцов). Я бы сказал, что хотя оба они довольно слабые (по сравнению, например, с перекрестной проверкой), лучше использовать AIC, чем больше людей будут знакомы с аббревиатурой - на самом деле я никогда не видел ни статьи, ни программы, где BIC быть использованным (все же я признаю, что я склонен к проблемам, когда такие критерии просто не работают).

Редактировать: AIC и BIC эквивалентны перекрестной проверке при условии двух важных допущений - когда они определены, например, когда модель с максимальной вероятностью, и когда вас интересует только производительность модели на обучающих данных. В случае объединения некоторых данных в какой-то консенсус, они совершенно нормально.
В случае создания машины прогнозирования для какой-либо реальной проблемы первая ложная, поскольку ваш обучающий набор представляет собой лишь кусочек информации о проблеме, с которой вы сталкиваетесь, поэтому вы просто не можете оптимизировать свою модель; второе неверно, потому что вы ожидаете, что ваша модель будет обрабатывать новые данные, для которых вы даже не можете ожидать, что обучающий набор будет репрезентативным. И с этой целью было изобретено резюме; моделировать поведение модели при сопоставлении с независимыми данными. В случае выбора модели CV дает вам не только приблизительное качество, но и распределение аппроксимации качества, поэтому у него есть такое большое преимущество, что он может сказать: «Я не знаю, каковы бы ни были новые данные, любой из них может быть лучше."

Scortchi
источник
Означает ли это, что для определенных размеров выборки BIC может быть менее строгим, чем AIC?
Расселпирс
1
Строгое здесь не лучшее слово, скорее более терпимое к параметрам; Тем не менее, да, для общих определений (с натуральным логарифмом) это происходит для 7 и менее объектов.
AIC асимптотически эквивалентна перекрестной проверке.
Роб Хиндман
5
@mbq - я не вижу, как перекрестная проверка преодолевает проблему «нерепрезентативности». Если ваши учебные данные не являются репрезентативными для данных, которые вы будете получать в будущем, вы можете перекрестно проверять все, что вы хотите, но это не будет представлять "ошибку обобщения", с которой вы фактически столкнетесь (как " true "новые данные не представлены немоделированной частью обучающих данных). Получение репрезентативного набора данных жизненно важно, если вы хотите делать хорошие прогнозы.
вероятностная
1
@mbq - я хочу сказать, что вы, кажется, «мягко отвергаете» выбор на основе IC, основанный на альтернативе, которая не решает проблему. Перекрестная проверка хороша (хотя вычисления того стоят?), Но с непредставленными данными нельзя справиться, используя процесс, управляемый данными. По крайней мере, не надежно. Вам необходимо иметь предварительную информацию, которая говорит вам, как она не является репрезентативной (или, в более общем смысле, какие логические связи «нерепрезентативные» данные имеют с фактическими будущими данными, которые вы будете наблюдать).
вероятностная
5

Как вы упомянули, AIC и BIC - это методы для наказания моделей за наличие большего количества переменных регрессора. В этих методах используется штрафная функция, которая является функцией количества параметров в модели.

  • При применении AIC, штрафной функцией является z (p) = 2 p .

  • При применении BIC функция штрафа имеет вид z (p) = p ln ( n ), которая основана на интерпретации штрафа как вытекающего из предшествующей информации (отсюда и название байесовского информационного критерия).

Когда n большое, две модели будут давать совершенно разные результаты. Тогда BIC применяет гораздо большее наказание для сложных моделей и, следовательно, приведет к более простым моделям, чем AIC. Однако, как говорится в Википедии на BIC :

Следует отметить, что во многих приложениях ... BIC просто сводится к выбору максимального правдоподобия, потому что количество параметров равно для интересующих моделей.

Аманда
источник
4
обратите внимание, что AIC также эквивалентен ML, когда размерность не изменяется. Ваш ответ создает впечатление, что это только для BIC.
вероятностная
5

Из того, что я могу сказать, между AIC и BIC нет большой разницы. Оба они представляют собой математически удобные приближения, которые можно сделать для эффективного сравнения моделей. Если они дают вам разные «лучшие» модели, это, вероятно, означает, что у вас высокая неопределенность модели, о которой стоит беспокоиться больше, чем о том, следует ли вам использовать AIC или BIC. Мне лично больше нравится BIC, потому что он спрашивает больше (меньше) модели, есть ли у нее больше (меньше) данных, чтобы соответствовать ее параметрам - вроде как учитель просит более высокий (более низкий) стандарт успеваемости, если у его ученика больше (меньше) ) время, чтобы узнать о предмете. Мне это кажется интуитивно понятным. Но тогда я уверен, что существуют также одинаково интуитивные и убедительные аргументы для AIC, учитывая его простую форму.

Теперь всякий раз, когда вы делаете приближение, наверняка будут некоторые условия, когда эти приближения являются мусором. Это, безусловно, можно увидеть для AIC, где существует множество «корректировок» (AICc) для учета определенных условий, которые делают исходное приближение плохим. Это также присутствует для BIC, потому что существуют различные другие более точные (но все еще эффективные) методы, такие как полные аппроксимации Лапласа к смесям g-априоров Зеллера (BIC является приближением к методу аппроксимации Лапласа для интегралов).

Одно из мест, где они оба дерьмовы, - это когда у вас есть существенная предварительная информация о параметрах в любой данной модели. AIC и BIC излишне наказывают модели, в которых параметры частично известны, по сравнению с моделями, которые требуют, чтобы параметры оценивались по данным.

P(D|M,A)P(M|D,A)MMA

Mi:the ith model is the best description of the dataA:out of the set of K models being considered, one of them is the best

А затем продолжайте назначать те же вероятностные модели (те же параметры, те же данные, те же приближения и т. Д.), Я получу тот же набор значений BIC. Только придавая какое-то уникальное значение логической букве «М», можно втянуть себя в неуместные вопросы об «истинной модели» (отголоски «истинной религии»). Единственное, что «определяет» М - это математические уравнения, которые используют его в своих вычислениях - и это едва ли когда-либо выделяет одно-единственное определение. Я мог бы в равной степени вставить предложение о прогнозе относительно M («i-я модель даст лучшие прогнозы»). Я лично не понимаю, как это изменит любую из вероятностей, и, следовательно, насколько хорошим или плохим будет BIC (AIC в этом отношении также - хотя AIC основан на другом происхождении)

И , кроме того, что случилось с утверждением Если истинная модель в наборе я рассматриваю, то есть 57% вероятность того , что модель B . Мне кажется это достаточно разумным, или вы могли бы выбрать более «мягкую» версию, с 57% вероятностью, что модель B является лучшей из рассматриваемого набора

Последний комментарий: я думаю, что вы найдете столько же мнений об AIC / BIC, сколько людей о них знают.

probabilityislogic
источник
4

AIC следует использовать редко, поскольку он действительно действителен только асимптотически. Это почти всегда лучше использовать AICC (АИК с гр orrection для конечного размера выборки). AIC имеет тенденцию к чрезмерной параметризации: эта проблема значительно уменьшается с AICc. Основное исключение из использования AICc - это случаи, когда лежащие в основе дистрибутивы сильно лептокуртичны. Подробнее об этом см. Книгу « Выбор модели » Бернхэма и Андерсона.

user2875
источник
1
Итак, вы говорите, что AIC недостаточно наказывает модели за параметры, поэтому использование его в качестве критерия может привести к чрезмерной параметризации. Вы рекомендуете использовать AICc вместо этого. Вернемся к этому вопросу в контексте моего первоначального вопроса, поскольку BIC уже более строг, чем AIC, есть ли причина использовать AICc вместо BIC?
Расселпирс
1
То, что вы подразумеваете под AIC, действует асимптотически. Как отметил Джон Тейлор, AIC противоречива. Я думаю, что его комментарии, противопоставляющие AIC BIC, являются лучшими. Я не вижу, что эти две вещи совпадают с перекрестной проверкой. Все они обладают хорошим свойством, которое они обычно достигают в модели с меньшим, чем максимальное количество переменных. Но все они могут выбирать разные модели.
Майкл Черник
4

AIC и BIC являются информационными критериями для сравнения моделей. Каждый пытается сбалансировать соответствие модели и скупость, и каждый по-разному штрафует за количество параметров.

AIC=2k2ln(L)
kL2ln(L)2k

BIC=kln(n)2ln(L)

Я не слышал о KIC.

Питер Флом
источник
Я также не слышал о KIC, но для AIC и BIC посмотрите на связанный вопрос или найдите AIC. stats.stackexchange.com/q/577/442
Хенрик
1
(Этот ответ был объединен с дублирующим вопросом, который также требовал толкования «KIC».)
whuber
3
Модели не должны быть вложенными для сравнения с AIC или BIC.
Макрос
1

Очень кратко:

lambda=2lambda=log(n)где оптимизация одной цели (LASSO или упругая чистая регрессия) сопровождается настройкой параметра (ов) регуляризации на основе некоторой другой цели (которая, например, минимизирует ошибку предсказания перекрестной проверки, AIC или BIC).

n1n

Обратите внимание, что ошибка LOOCV также может быть рассчитана аналитически из остатков и диагонали матрицы шапки , без необходимости какой-либо перекрестной проверки. Это всегда будет альтернативой AIC как асимптотическое приближение ошибки LOOCV.

Рекомендации

Стоун М. (1977). Асимптотическая эквивалентность выбора модели путем перекрестной проверки и критерия Акаике. Журнал Королевского статистического общества. Серия B. 39, 44–7.

Шао Дж. (1997) Асимптотическая теория для выбора линейной модели. Statistica Sinica 7, 221-242.

Том Венселерс
источник