Рекомендации AIC при выборе модели

32

Обычно я использую BIC, так как я понимаю, что он ценит скупость сильнее, чем AIC. Однако сейчас я решил использовать более комплексный подход и хотел бы также использовать AIC. Я знаю, что Raftery (1995) представил хорошие рекомендации для различий BIC: 0-2 - слабое, 2-4 - положительное свидетельство того, что одна модель лучше и т.д.

Я посмотрел в учебниках, и они кажутся странными на AIC (похоже, что большая разница слабая, а меньшая разница в AIC означает, что одна модель лучше). Это противоречит тому, что я знаю, меня учили. Насколько я понимаю, вы хотите снизить AIC.

Кто-нибудь знает, распространяется ли руководство Raftery на AIC, или где я мог бы привести некоторые руководящие принципы для "силы доказательства" для одной модели против другой?

И да, отсечки не очень хороши (я нахожу их раздражающими), но они полезны при сравнении различных видов доказательств.

r model-selection references aic bic Том Карпентер
источник

1

Это (pdf) , статья о рафтери, на которую вы ссылаетесь?

gung - Восстановить Монику

4

Читателям здесь может быть интересно прочесть следующую отличную ветку резюме: есть ли основания предпочитать AIC или BIC другим?

gung - Восстановить Монику

1

На какие учебники вы ссылаетесь, когда говорите: « Я посмотрел учебники, и они кажутся странными в AIC (похоже, что большая разница слабая, а меньшая разница в AIC означает, что одна модель лучше) » - и что они на самом деле делают сказать?

Glen_b

1

Ваш второй пункт неясен. Вы, вероятно, имеете в виду следующее: хотя большие различия предполагают, что модель с меньшими значениями предпочтительнее, меньшие различия трудно оценить. Более того, статистикам еще предстоит договориться о том, какие различия являются «маленькими» или «большими» - Singer and Willet (2003, с.122)

Hibernating

1

Что касается вашего третьего пункта, если вы хотите принять категории доказательной силы, выдвинутые Джеффрисом (1961, стр. 432), я могу дать вам полную ссылку.

Гибернация

23

AIC и BIC придерживаются одинаковой интерпретации с точки зрения сравнения моделей. То есть, чем больше разница в AIC или BIC, тем больше доказательств для одной модели по сравнению с другой (чем ниже, тем лучше). Просто AIC не штрафует количество параметров так сильно, как BIC. Существует также поправка к AIC (AICc), которая используется для выборок меньшего размера. Более подробную информацию о сравнении AIC / BIC можно найти здесь .

dmartin
источник

5

+1. Просто чтобы добавить / уточнить: AIC (и AICc) использует KL-дивергенцию. Следовательно, именно потому, что AIC отражает «дополнительную» информацию, чем она меньше, тем лучше. Другими словами, в качестве размера нашей выборки модель с минимальной оценкой AIC будет обладать наименьшей расходимостью Кулбека-Лейблера и, следовательно, будет моделью, наиболее близкой к "истинной" модели.

N \to \infty

$N \rightarrow \infty$

usεr11852 говорит восстановить Monic

28

Вы говорите о двух разных вещах, и вы смешиваете их. В первом случае у вас есть две модели (1 и 2), и вы получили их AIC, такие как и . Если вы хотите сравнить эти две модели на основе их AIC, то модель с более низким AIC будет предпочтительной, т.е. если тогда вы выбираете модель 1 и наоборот. Во втором случае у вас есть набор моделей-кандидатов, таких как модели и для каждой модели вы вычисляете различия AIC как , где - это AIC для й модели и является минимальным АИК среди всех моделей. Теперь модель с $AIC_1$ $AIC_2$ $AIC_1< AIC_2$
$(1, 2, ..., n)$ $\Delta_i= AIC_i- AIC_{min}$ $AIC_i$ $i$ $AIC_{min}$ $\Delta_i >10$ имеют поддержки и могут быть опущены из дальнейшего рассмотрения, как объяснено в разделе « Выбор модели и вывод из нескольких моделей: практический информационно-теоретический подход » Кеннета П. Бернхэма, Дэвида Р. Андерсона, стр. 71. Таким образом, чем больше , слабее будет ваша модель. Здесь лучшая модель имеет $\Delta_i$ $\Delta_i\equiv\Delta_{min}\equiv0.$

Stat
источник

1

Ага! Это полностью прояснило бит «больше чем». Благодарность!

Том Карпентер

7

Обычно я никогда не использую AIC или BIC, чтобы объективно описать подходящую модель. Я бы использовать эти микросхемы для сравнения относительного прилегания двух моделей прогнозирования. Что касается AIC «2» или «4», это полностью контекстуально. Если вы хотите понять, как подходит «хорошая» модель, вы всегда можете (должны) использовать симуляцию. Ваше понимание AIC верно. AIC получает положительный вклад от параметров и отрицательный вклад от вероятности. То, что вы пытаетесь сделать, это максимизировать вероятность, не загружая вашу модель кучей параметров. Таким образом, мое мнение о том, что сокращение AIC не является хорошим выходом из контекста.

Adamo
источник

Что если ваши модели не допускают симуляции?

Стат

6

Ту ту! Как это вообще возможно? Можно начать мир с нуля.

AdamO

Боже, удачи с этим ... симулировать мир lol

Stat

2

@ Stat Я очень серьезен, когда говорю, что не могу представить себе ситуацию, в которой было бы невозможно смоделировать данные из модели. По крайней мере, начальная загрузка из набора обучающих данных квалифицируется как правильный подход к моделированию.

AdamO

Когда начальная загрузка трудна, перекрестная проверка или даже простой джекнифинг должны работать. Кроме того, усреднение модели обеспечивает средства для сверки информации из моделей с аналогичными AIC.

N Брауэр

2

Вот связанный вопрос, когда это уместно, чтобы выбрать модели, минимизируя aic? , Это дает вам общее представление о том, что люди, которых нельзя не узнать в академическом мире, считают целесообразным написать, и какие ссылки оставить в качестве важных.

Обычно важны различия между вероятностями или AIC, а не их абсолютные значения. Вы пропустили важное слово «разница» в своем «BIC: 0-2 - слабый» в вопросе - проверьте Таблицу 6 Рафтери - и странно, что никто не хочет это исправить.

Меня самого научили искать MAICE (минимальная оценка AIC - как ее называл Акаике). Ну и что? Вот что написал один известный человек неизвестной женщине:

Dear Miss -- 
I have read about sixteen pages of your manuscript ... I suffered exactly the same 
treatment at the hands of my teachers who disliked me for my independence and passed 
over me when they wanted assistants ... keep your manuscript for your sons and
daughters, in order that they may derive consolation from it and not give a damn for
what their teachers tell them or think of them. ... There is too much education
altogether.

Мои учителя никогда не слышали о работах с такими названиями, как «Проверка, существенно ли отличаются два AIC», и я даже не помню, чтобы они когда-либо называли AIC статистикой, которая имела бы распределение выборки и другие свойства. Меня учили, AIC - это критерий, который должен быть сведен к минимуму, если возможно, каким-либо автоматическим способом.

Еще одна важная проблема, которая, как мне кажется, была высказана здесь несколько лет назад IrishStat (по памяти, извиняюсь, если я ошибаюсь, так как не смог найти этот ответ), что AIC, BIC и другие критерии были получены для различных целей и скажем, в различных условиях (предположениях), поэтому вы часто не можете использовать их взаимозаменяемо, если ваша цель - прогнозирование. Вы не можете просто предпочесть что-то неуместное.

Мои источники показывают, что я использовал цитату Бернхэма и Андерсона (2002, стр. 70), чтобы написать, что дельта (различия AIC) в пределах 0-2 имеет существенную поддержку; дельта в пределах 4-7 значительно меньше поддержки, а дельта больше 10 практически не поддерживает. Также я написал, что «авторы также обсуждали условия, при которых эти рекомендации могут быть полезны». Книга процитирована в ответе Статом, который я назвал наиболее актуальным.

Hibernating
источник

0

Что касается информационных критериев, вот что говорит SAS :

«Обратите внимание, что информационные критерии, такие как Akaike (AIC), Schwarz (SC, BIC) и QIC, могут использоваться для сравнения конкурирующих неопубликованных моделей, но не обеспечивают проверки сравнения. Следовательно, они не могут указать, является ли одна модель значительно лучше, чем другие. GENMOD, LOGISTIC, GLIMMIX, MIXED и другие процедуры обеспечивают критерии критериев информации. "

Существуют две сравнительные модели тестирования: а) тест Вуонга и б) непараметрический тест Кларка. Смотрите эту статью для деталей.

метрика
источник

Я считаю, что математические обозначения, используемые в цитируемой «статье» (то есть презентации), непонятны без комментариев. В частности, что символизирует линия штрихов? Проявление?

Адам Рычковски

Рекомендации AIC при выборе модели

Ответы: