Я выполняю модель пуассоновской регрессии с 1 переменной отклика и 6 ковариатами. Выбор модели с использованием AIC приводит к получению модели со всеми ковариатами, а также с 6 терминами взаимодействия. BIC, однако, приводит к модели только с 2 ковариатами и без условий взаимодействия. Возможно ли, что два критерия, которые выглядят очень похожими, дают совершенно разные модели выбора?
12
Ответы:
Это действительно возможно. Как объяснено по адресу https://methodology.psu.edu/AIC-vs-BIC , «BIC более жестко наказывает сложность модели. Единственный способ, которым они должны не соглашаться, - это когда AIC выбирает модель большего размера, чем BIC».
Если ваша цель - определить хорошую прогностическую модель, вам следует использовать AIC. Если ваша цель - определить хорошую модель объяснения, вам следует использовать BIC. Роб Хиндман хорошо суммирует эту рекомендацию на
https://robjhyndman.com/hyndsight/to-explain-or-predict/ :
«AIC лучше подходит для выбора модели для прогнозирования, поскольку она асимптотически эквивалентна перекрестной проверке с упущением один выход в регрессии или перекрестной проверке в один шаг во временных рядах. С другой стороны, можно утверждать, что BIC лучше подходит для выбора модели для объяснения, так как он последовательный ».
Рекомендация взята из статьи Галита Шмуэли «Объяснить или предсказать?», Статистическая наука, 25 (3), 289-310 ( https://projecteuclid.org/euclid.ss/1294167961 ).
Приложение:
Существует третий тип моделирования - описательное моделирование, но я не знаю каких-либо ссылок, по которым AIC или BIC лучше всего подходят для определения оптимальной описательной модели. Я надеюсь, что другие здесь могут присоединиться к их пониманию.
источник
Краткий ответ: да, это очень возможно. Эти два применяют различные штрафы, основанные на количестве оценочных параметров (2k для AIC против ln (n) xk для BIC, где k - количество оцененных параметров, а n - размер выборки). Таким образом, если выигрыш в вероятности от добавления параметра невелик, BIC может выбирать разные модели для AIC. Однако этот эффект зависит от размера выборки.
источник