БИК пытается найти настоящую модель?

17

Этот вопрос является продолжением или попыткой прояснить возможную путаницу в отношении темы, которую я и многие другие находим немного трудной в отношении различий между AIC и BIC. В очень хорошем ответе @Dave Kellen на эту тему ( /stats//a/767/30589 ) мы читаем:

Ваш вопрос подразумевает, что AIC и BIC пытаются ответить на один и тот же вопрос, что не соответствует действительности. AIC пытается выбрать модель, которая наиболее адекватно описывает неизвестную, многомерную реальность. Это означает, что реальность никогда не находится в наборе рассматриваемых моделей-кандидатов. Напротив, BIC пытается найти ИСТИННУЮ модель среди множества кандидатов. Я нахожу довольно странным предположение, что реальность создается в одной из моделей, которые исследователи построили на этом пути. Это реальная проблема для BIC.

В комментарии ниже от @ gui11aume мы читаем:

(-1) Отличное объяснение, но я бы хотел оспорить утверждение. @ Дэйв Келлен Не могли бы вы дать ссылку на то, где идея о том, что ИСТИННАЯ модель должна быть в наборе для BIC? Я хотел бы исследовать это, поскольку в этой книге авторы приводят убедительные доказательства того, что это не так. - gui11aume 27 мая '12 в 21:47

Похоже, что это утверждение исходит от самого Шварца (1978), хотя это утверждение не было необходимым: теми же авторами (на которые ссылается @ gui11aume) мы читаем из их статьи «Логический вывод: понимание AIC и BIC в выборе модели» ( Burnham and Anderson, 2004):

Предполагает ли вывод BIC существование истинной модели или, более узко, предполагается, что истинная модель находится в наборе моделей при использовании BIC? (Вывод Шварца определил эти условия.) ... Ответ ... нет. То есть BIC (в качестве основы для приближения к определенному байесовскому интегралу) может быть получен без предположения, что модель, лежащая в основе деривации, истинна (см., Например, Cavanaugh and Neath 1999; Burnham and Anderson 2002: 293-5). Конечно, при применении BIC набор моделей не должен содержать (не существует) истинную модель, представляющую полную реальность. Более того, сходимость по вероятности выбранной модели BIC к модели таргбета (при идеализации образца iid) логически не означает, что эта целевая модель должна быть истинным распределением, генерирующим данные).

Итак, я думаю, что стоит обсудить или кое-что прояснить (если потребуется больше) на эту тему. Прямо сейчас все, что у нас есть, это комментарий @ gui11aume (спасибо!) Под очень высоко оцененным ответом относительно различий между AIC и BIC.

Erosennin
источник
1
Для того, чтобы сосредоточить внимание на вопрос лучше, AIC , возможно , могут быть удалены из названия , так как, если я правильно понимаю, это вопрос о том, нужна ли истинная модель быть в наборе кандидатов при использовании BIC.
Юхо Коккала
@JuhoKokkala: Я согласен.
Erosennin
4
Для меня суть в том, что в большинстве практических применений BIC приводит к недостаточной комплектации, а AIC более правильно оценивает вероятную производительность модели для новых данных, которых нет в наличии. Но независимо от того, используете ли вы AIC или BIC, если выбираете, скажем, из 3 конкурирующих моделей / наборов функций, полученная модель может оказаться более подходящей. AIC и BIC работают лучше всего, когда число потенциальных моделей невелико или модели связаны небольшим количеством параметров (например, штрафы).
Фрэнк Харрелл
Спасибо @Erosennin за то, что выкопали ссылку. Теперь я понимаю, откуда приходит идея, что модель TRUE должна быть включена.
gui11aume
@FrankHarrell: Не могли бы вы объяснить, что вы подразумеваете под «практическими приложениями»? Если я правильно понимаю Бернхэма и Андерсона, кажется, что BIC приведет к недостаточному соответствию, когда данных недостаточно. Когда у нас много данных, BIC на самом деле выбирает / ищет квази-истинную модель, более сложную, чем AIC. AIC и BIC имеют разные «целевые модели». Мне бы очень хотелось, чтобы вы уточнили, о чем вы говорите, хотя бы чтобы указать мне на какую-то статью / книгу.
Еросеннин

Ответы:

11

п(M1|Y)п(M2|Y)>1~ASяС(M1)<SяС(M2)
~Aп(MJ|Y)JY

яС(К)знак равно-2TL(θ^;Y)+Кграмм(T)
L(θ^;Y)θ^КT
грамм(T)0в качестве
Tграмм(T)в качестве
граммAяС(T)знак равно2T,граммSяС(T)знак равноперTT

Эллиот, Г. и А. Тиммерманн (2016, апрель). Экономическое прогнозирование. Издательство Принстонского университета.

Шварц, Гидеон. «Оценка размера модели». Летопись статистики 6.2 (1978): 461-464.

Матиас Шмидтблайхер
источник