AIC и BIC - оба метода оценки соответствия модели, оштрафованные за количество оцениваемых параметров. Насколько я понимаю, BIC штрафует модели за свободные параметры больше, чем AIC. Помимо предпочтений, основанных на строгости критериев, есть ли другие причины отдавать предпочтение AIC, а не BIC или наоборот?
modeling
aic
cross-validation
bic
model-selection
russellpierce
источник
источник
Ответы:
Ваш вопрос подразумевает, что AIC и BIC пытаются ответить на один и тот же вопрос, что не соответствует действительности. AIC пытается выбрать модель, которая наиболее адекватно описывает неизвестную, многомерную реальность. Это означает, что реальность никогда не находится в наборе рассматриваемых моделей-кандидатов. Напротив, BIC пытается найти ИСТИННУЮ модель среди множества кандидатов. Я нахожу довольно странным предположение, что реальность создается в одной из моделей, которые исследователи построили на этом пути. Это реальная проблема для BIC.
Тем не менее, есть много исследователей, которые говорят, что BIC лучше, чем AIC, используя моделирование восстановления модели в качестве аргумента. Эти моделирования состоят из генерации данных из моделей A и B, а затем подгонки обоих наборов данных к двум моделям. Переоснащение происходит, когда неправильная модель соответствует данным лучше, чем генерирующая. Смысл этих симуляций в том, чтобы увидеть, насколько хорошо AIC и BIC исправляют эти наложения. Обычно результаты указывают на тот факт, что AIC слишком либерален и все же часто предпочитает более сложную, неправильную модель, а не более простую, истинную модель. На первый взгляд эти симуляции кажутся действительно хорошими аргументами, но проблема с ними в том, что они бессмысленны для AIC. Как я уже говорил ранее, AIC не считает, что любая из тестируемых моделей-кандидатов на самом деле соответствует действительности. Согласно AIC, все модели являются приближением к реальности, и реальность никогда не должна иметь низкую размерность. По крайней мере, ниже, чем у некоторых моделей-кандидатов.
Я рекомендую использовать AIC и BIC. В большинстве случаев они соглашаются с предпочтительной моделью, а когда нет, просто сообщают об этом.
Если вы недовольны как AIC, так и BIC и у вас есть свободное время для инвестиций, посмотрите Минимальная длина описания (MDL), совершенно другой подход, который преодолевает ограничения AIC и BIC. Есть несколько показателей, вытекающих из MDL, таких как нормализованная максимальная вероятность или приближение информации Фишера. Проблема с MDL заключается в том, что он математически сложен и / или требует больших вычислительных ресурсов.
Тем не менее, если вы хотите придерживаться простых решений, хорошим способом оценки гибкости модели (особенно при равном количестве параметров, делающих AIC и BIC бесполезными) является создание Parametric Bootstrap, которое довольно просто реализовать. Вот ссылка на статью об этом.
Некоторые люди здесь выступают за использование перекрестной проверки. Я лично использовал это и ничего против этого не имею, но проблема в том, что выбор из правила вырезания выборки (оставлять один, K-сгиб и т. Д.) Является беспринципным.
источник
Несмотря на то, что AIC и BIC управляются оценкой максимального правдоподобия и штрафуют свободные параметры, пытаясь бороться с переоснащением, они делают это способами, которые приводят к существенно различному поведению. Давайте посмотрим на одну обычно представленную версию методов (в результате чего формируются нормально распределенные ошибки и другие предположения с хорошим поведением):
а также
где:
Лучшая модель в сравниваемой группе - та, которая минимизирует эти оценки в обоих случаях. Ясно, что AIC не зависит напрямую от размера выборки. Кроме того, вообще говоря, AIC представляет опасность того, что он может соответствовать, в то время как BIC представляет опасность, что он может соответствовать, просто в силу того, как они штрафуют свободные параметры (2 * k в AIC; ln (N) * k в BIC). Диахронически, когда вводятся данные и оценки пересчитываются, при относительно низком N (7 и менее) BIC более терпим к свободным параметрам, чем AIC, но менее терпим при более высоком N (так как натуральный логарифм N превышает 2).
Кроме того, AIC направлена на поиск наилучшей аппроксимирующей модели для неизвестного процесса генерирования данных (путем минимизации ожидаемой расчетной дивергенции KL ). Как таковая, она не может сходиться по вероятности к истинной модели (при условии, что она присутствует в оцениваемой группе), тогда как BIC действительно сходится, когда N стремится к бесконечности.
Таким образом, как и во многих методологических вопросах, предпочтение зависит от того, что вы пытаетесь сделать, какие другие методы доступны, а также от того, выделены ли какие-либо функции (сходимость, относительная толерантность к свободным параметрам, минимизация ожидаемой дивергенции KL). ), говорите с вашими целями.
источник
Мое быстрое объяснение
источник
По моему опыту, BIC приводит к серьезным недостаткам, и AIC обычно работает хорошо, когда цель состоит в том, чтобы максимизировать прогностическую дискриминацию.
источник
Информационный и доступный «вывод» AIC и BIC Брайана Рипли можно найти здесь: http://www.stats.ox.ac.uk/~ripley/Nelder80.pdf
Рипли приводит некоторые замечания относительно предположений, лежащих в основе математических результатов. Вопреки тому, что указывают некоторые другие ответы, Рипли подчеркивает, что AIC основан на предположении, что модель верна. Если модель не соответствует действительности, общие вычисления покажут, что «количество параметров» должно быть заменено более сложным значением. Некоторые ссылки приведены в слайдах Рипли. Отметим, однако, что для линейной регрессии (строго говоря, с известной дисперсией), как правило, более сложная величина упрощается, чтобы быть равной количеству параметров.
источник
На самом деле, единственное отличие состоит в том, что BIC - это расширенный AIC для учета количества объектов (образцов). Я бы сказал, что хотя оба они довольно слабые (по сравнению, например, с перекрестной проверкой), лучше использовать AIC, чем больше людей будут знакомы с аббревиатурой - на самом деле я никогда не видел ни статьи, ни программы, где BIC быть использованным (все же я признаю, что я склонен к проблемам, когда такие критерии просто не работают).
Редактировать: AIC и BIC эквивалентны перекрестной проверке при условии двух важных допущений - когда они определены, например, когда модель с максимальной вероятностью, и когда вас интересует только производительность модели на обучающих данных. В случае объединения некоторых данных в какой-то консенсус, они совершенно нормально.
В случае создания машины прогнозирования для какой-либо реальной проблемы первая ложная, поскольку ваш обучающий набор представляет собой лишь кусочек информации о проблеме, с которой вы сталкиваетесь, поэтому вы просто не можете оптимизировать свою модель; второе неверно, потому что вы ожидаете, что ваша модель будет обрабатывать новые данные, для которых вы даже не можете ожидать, что обучающий набор будет репрезентативным. И с этой целью было изобретено резюме; моделировать поведение модели при сопоставлении с независимыми данными. В случае выбора модели CV дает вам не только приблизительное качество, но и распределение аппроксимации качества, поэтому у него есть такое большое преимущество, что он может сказать: «Я не знаю, каковы бы ни были новые данные, любой из них может быть лучше."
источник
Как вы упомянули, AIC и BIC - это методы для наказания моделей за наличие большего количества переменных регрессора. В этих методах используется штрафная функция, которая является функцией количества параметров в модели.
При применении AIC, штрафной функцией является z (p) = 2 p .
При применении BIC функция штрафа имеет вид z (p) = p ln ( n ), которая основана на интерпретации штрафа как вытекающего из предшествующей информации (отсюда и название байесовского информационного критерия).
Когда n большое, две модели будут давать совершенно разные результаты. Тогда BIC применяет гораздо большее наказание для сложных моделей и, следовательно, приведет к более простым моделям, чем AIC. Однако, как говорится в Википедии на BIC :
источник
Из того, что я могу сказать, между AIC и BIC нет большой разницы. Оба они представляют собой математически удобные приближения, которые можно сделать для эффективного сравнения моделей. Если они дают вам разные «лучшие» модели, это, вероятно, означает, что у вас высокая неопределенность модели, о которой стоит беспокоиться больше, чем о том, следует ли вам использовать AIC или BIC. Мне лично больше нравится BIC, потому что он спрашивает больше (меньше) модели, есть ли у нее больше (меньше) данных, чтобы соответствовать ее параметрам - вроде как учитель просит более высокий (более низкий) стандарт успеваемости, если у его ученика больше (меньше) ) время, чтобы узнать о предмете. Мне это кажется интуитивно понятным. Но тогда я уверен, что существуют также одинаково интуитивные и убедительные аргументы для AIC, учитывая его простую форму.
Теперь всякий раз, когда вы делаете приближение, наверняка будут некоторые условия, когда эти приближения являются мусором. Это, безусловно, можно увидеть для AIC, где существует множество «корректировок» (AICc) для учета определенных условий, которые делают исходное приближение плохим. Это также присутствует для BIC, потому что существуют различные другие более точные (но все еще эффективные) методы, такие как полные аппроксимации Лапласа к смесям g-априоров Зеллера (BIC является приближением к методу аппроксимации Лапласа для интегралов).
Одно из мест, где они оба дерьмовы, - это когда у вас есть существенная предварительная информация о параметрах в любой данной модели. AIC и BIC излишне наказывают модели, в которых параметры частично известны, по сравнению с моделями, которые требуют, чтобы параметры оценивались по данным.
А затем продолжайте назначать те же вероятностные модели (те же параметры, те же данные, те же приближения и т. Д.), Я получу тот же набор значений BIC. Только придавая какое-то уникальное значение логической букве «М», можно втянуть себя в неуместные вопросы об «истинной модели» (отголоски «истинной религии»). Единственное, что «определяет» М - это математические уравнения, которые используют его в своих вычислениях - и это едва ли когда-либо выделяет одно-единственное определение. Я мог бы в равной степени вставить предложение о прогнозе относительно M («i-я модель даст лучшие прогнозы»). Я лично не понимаю, как это изменит любую из вероятностей, и, следовательно, насколько хорошим или плохим будет BIC (AIC в этом отношении также - хотя AIC основан на другом происхождении)
И , кроме того, что случилось с утверждением Если истинная модель в наборе я рассматриваю, то есть 57% вероятность того , что модель B . Мне кажется это достаточно разумным, или вы могли бы выбрать более «мягкую» версию, с 57% вероятностью, что модель B является лучшей из рассматриваемого набора
Последний комментарий: я думаю, что вы найдете столько же мнений об AIC / BIC, сколько людей о них знают.
источник
AIC следует использовать редко, поскольку он действительно действителен только асимптотически. Это почти всегда лучше использовать AICC (АИК с гр orrection для конечного размера выборки). AIC имеет тенденцию к чрезмерной параметризации: эта проблема значительно уменьшается с AICc. Основное исключение из использования AICc - это случаи, когда лежащие в основе дистрибутивы сильно лептокуртичны. Подробнее об этом см. Книгу « Выбор модели » Бернхэма и Андерсона.
источник
AIC и BIC являются информационными критериями для сравнения моделей. Каждый пытается сбалансировать соответствие модели и скупость, и каждый по-разному штрафует за количество параметров.
Я не слышал о KIC.
источник
Очень кратко:
Обратите внимание, что ошибка LOOCV также может быть рассчитана аналитически из остатков и диагонали матрицы шапки , без необходимости какой-либо перекрестной проверки. Это всегда будет альтернативой AIC как асимптотическое приближение ошибки LOOCV.
Рекомендации
Стоун М. (1977). Асимптотическая эквивалентность выбора модели путем перекрестной проверки и критерия Акаике. Журнал Королевского статистического общества. Серия B. 39, 44–7.
Шао Дж. (1997) Асимптотическая теория для выбора линейной модели. Statistica Sinica 7, 221-242.
источник