Обычно я использую BIC, так как я понимаю, что он ценит скупость сильнее, чем AIC. Однако сейчас я решил использовать более комплексный подход и хотел бы также использовать AIC. Я знаю, что Raftery (1995) представил хорошие рекомендации для различий BIC: 0-2 - слабое, 2-4 - положительное свидетельство того, что одна модель лучше и т.д.
Я посмотрел в учебниках, и они кажутся странными на AIC (похоже, что большая разница слабая, а меньшая разница в AIC означает, что одна модель лучше). Это противоречит тому, что я знаю, меня учили. Насколько я понимаю, вы хотите снизить AIC.
Кто-нибудь знает, распространяется ли руководство Raftery на AIC, или где я мог бы привести некоторые руководящие принципы для "силы доказательства" для одной модели против другой?
И да, отсечки не очень хороши (я нахожу их раздражающими), но они полезны при сравнении различных видов доказательств.
источник
Ответы:
AIC и BIC придерживаются одинаковой интерпретации с точки зрения сравнения моделей. То есть, чем больше разница в AIC или BIC, тем больше доказательств для одной модели по сравнению с другой (чем ниже, тем лучше). Просто AIC не штрафует количество параметров так сильно, как BIC. Существует также поправка к AIC (AICc), которая используется для выборок меньшего размера. Более подробную информацию о сравнении AIC / BIC можно найти здесь .
источник
Вы говорите о двух разных вещах, и вы смешиваете их. В первом случае у вас есть две модели (1 и 2), и вы получили их AIC, такие как и . Если вы хотите сравнить эти две модели на основе их AIC, то модель с более низким AIC будет предпочтительной, т.е. если тогда вы выбираете модель 1 и наоборот. Во втором случае у вас есть набор моделей-кандидатов, таких как модели и для каждой модели вы вычисляете различия AIC как , где - это AIC для й модели и является минимальным АИК среди всех моделей. Теперь модель сAIC1 AIC2 AIC1<AIC2
(1,2,...,n) Δi=AICi−AICmin AICi i AICmin Δi>10 имеют поддержки и могут быть опущены из дальнейшего рассмотрения, как объяснено в разделе « Выбор модели и вывод из нескольких моделей: практический информационно-теоретический подход » Кеннета П. Бернхэма, Дэвида Р. Андерсона, стр. 71. Таким образом, чем больше , слабее будет ваша модель. Здесь лучшая модель имеетΔi Δi≡Δmin≡0.
источник
Обычно я никогда не использую AIC или BIC, чтобы объективно описать подходящую модель. Я бы использовать эти микросхемы для сравнения относительного прилегания двух моделей прогнозирования. Что касается AIC «2» или «4», это полностью контекстуально. Если вы хотите понять, как подходит «хорошая» модель, вы всегда можете (должны) использовать симуляцию. Ваше понимание AIC верно. AIC получает положительный вклад от параметров и отрицательный вклад от вероятности. То, что вы пытаетесь сделать, это максимизировать вероятность, не загружая вашу модель кучей параметров. Таким образом, мое мнение о том, что сокращение AIC не является хорошим выходом из контекста.
источник
Вот связанный вопрос, когда это уместно, чтобы выбрать модели, минимизируя aic? , Это дает вам общее представление о том, что люди, которых нельзя не узнать в академическом мире, считают целесообразным написать, и какие ссылки оставить в качестве важных.
Обычно важны различия между вероятностями или AIC, а не их абсолютные значения. Вы пропустили важное слово «разница» в своем «BIC: 0-2 - слабый» в вопросе - проверьте Таблицу 6 Рафтери - и странно, что никто не хочет это исправить.
Меня самого научили искать MAICE (минимальная оценка AIC - как ее называл Акаике). Ну и что? Вот что написал один известный человек неизвестной женщине:
Мои учителя никогда не слышали о работах с такими названиями, как «Проверка, существенно ли отличаются два AIC», и я даже не помню, чтобы они когда-либо называли AIC статистикой, которая имела бы распределение выборки и другие свойства. Меня учили, AIC - это критерий, который должен быть сведен к минимуму, если возможно, каким-либо автоматическим способом.
Еще одна важная проблема, которая, как мне кажется, была высказана здесь несколько лет назад IrishStat (по памяти, извиняюсь, если я ошибаюсь, так как не смог найти этот ответ), что AIC, BIC и другие критерии были получены для различных целей и скажем, в различных условиях (предположениях), поэтому вы часто не можете использовать их взаимозаменяемо, если ваша цель - прогнозирование. Вы не можете просто предпочесть что-то неуместное.
Мои источники показывают, что я использовал цитату Бернхэма и Андерсона (2002, стр. 70), чтобы написать, что дельта (различия AIC) в пределах 0-2 имеет существенную поддержку; дельта в пределах 4-7 значительно меньше поддержки, а дельта больше 10 практически не поддерживает. Также я написал, что «авторы также обсуждали условия, при которых эти рекомендации могут быть полезны». Книга процитирована в ответе Статом, который я назвал наиболее актуальным.
источник
Что касается информационных критериев, вот что говорит SAS :
Существуют две сравнительные модели тестирования: а) тест Вуонга и б) непараметрический тест Кларка. Смотрите эту статью для деталей.
источник