Мне было интересно, как байесовцы в сообществе CrossValidated рассматривают проблему неопределенности модели и как они предпочитают с ней бороться? Я постараюсь изложить свой вопрос в двух частях:
Насколько важно (по вашему опыту / мнению) иметь дело с неопределенностью модели? Я не нашел ни одной статьи, посвященной этой проблеме, в сообществе машинного обучения, поэтому мне просто интересно, почему.
Каковы общие подходы к обработке неопределенности модели (бонусные баллы, если вы предоставите ссылки)? Я слышал об усреднении байесовской модели, хотя я не знаком со специфическими методами / ограничениями этого подхода. Какие еще есть и почему вы предпочитаете одно другому?
Ответы:
Есть два случая, которые возникают при выборе модели:
Когда истинная модель принадлежит в модельном пространстве.
Это очень просто иметь дело с использованием BIC . Есть результаты, которые показывают, что BIC выберет истинную модель с высокой вероятностью.
Однако на практике очень редко мы знаем настоящую модель. Я должен отметить, что BIC, как правило, из-за этого злоупотребляет (вероятной причиной является то, что он похож на AIC ) . Эти вопросы были рассмотрены на этом форуме ранее в различных формах. Хорошая дискуссия здесь .
Когда истинная модель не находится в модельном пространстве.
Это активная область исследований в байесовском сообществе. Тем не менее, подтверждается, что люди знают, что использование BIC в качестве критерия выбора модели в этом случае опасно. Недавняя литература по анализу данных высокого измерения показывает это. Одним из таких примеров является это . Байесовский фактор определенно работает на удивление хорошо при больших размерах. Было предложено несколько модификаций BIC, таких как mBIC, но консенсуса нет. RJMCMC Грина - еще один популярный способ выбора байесовской модели, но у него есть свои недостатки. Вы можете следить за этим подробнее.
В байесовском мире есть еще один лагерь, который рекомендует усреднение моделей. Известное существо, доктор Рафтери.
Байесовская модель усреднения.
Этот веб-сайт Криса Волинкси является исчерпывающим источником информации об байесовской модели. Некоторые другие работы здесь .
Опять же, байесовский выбор моделей по-прежнему является активной областью исследований, и вы можете получить очень разные ответы в зависимости от того, кого вы спрашиваете.
источник
«Истинный» байесовский метод будет иметь дело с неопределенностью модели путем маргинализации (интеграции) по всем вероятным моделям. Так, например, в задаче регрессии с линейным гребнем вы должны маргинализировать параметры регрессии (которые будут иметь гауссовский апостериор, так что это может быть сделано аналитически), но затем маргинализироваться по гиперпараметрам (уровень шума и параметр регуляризации) с помощью, например, MCMC методы.
«Меньшее» байесовское решение состояло бы в том, чтобы маргинализовать параметры модели, но оптимизировать гиперпараметры путем максимизации предельной вероятности (также известной как «байесовское доказательство») для модели. Однако это может привести к большему переоснащению, чем можно было ожидать (см., Например, Коули и Тэлбот ). Посмотрите работу Дэвида Маккея для получения информации о максимизации доказательств в машинном обучении. Для сравнения см. Работу Рэдфорда Нила о подходе «интегрировать все из» к аналогичным проблемам. Обратите внимание, что доказательная база очень удобна для ситуаций, когда интеграция слишком затратна в вычислительном отношении, поэтому существуют возможности для обоих подходов.
Эффективно байесовцы интегрируют, а не оптимизируют. В идеале, мы должны заявить о нашем предварительном убеждении относительно характеристик решения (например, гладкости) и делать прогнозы без каких-либо действий, фактически не создавая модель. «Модели» гауссовского процесса, используемые в машинном обучении, являются примером этой идеи, где ковариационная функция кодирует наше предварительное убеждение относительно решения. Смотрите отличную книгу Расмуссена и Уильямса .
Для практических байесовцев всегда есть перекрестная проверка, ее трудно превзойти для большинства вещей!
источник
Одна из интересных вещей, которые я нахожу в мире «неопределенности модели», - это понятие «истинной модели». Это косвенно означает, что наши «модельные предложения» имеют вид:
Исчерпывающее значение здесь имеет решающее значение, потому что это обеспечивает увеличение вероятности до 1, что означает, что мы можем исключить модель.
Но это все на концептуальном уровне - усреднение модели имеет хорошие показатели. Так что это означает, что должна быть лучшая концепция.
Лично я рассматриваю модели как инструменты, такие как молоток или дрель. Модели - это ментальные конструкции, используемые для предсказаний или описания вещей, которые мы можем наблюдать. Звучит странно, если говорить об «истинном молотке», и столь же странно говорить об «истинном умственном конструкте». Исходя из этого, понятие «истинная модель» кажется мне странным. Кажется намного более естественным думать о «хороших» моделях и «плохих» моделях, а не о «правильных» моделях и «неправильных» моделях.
Принимая эту точку зрения, мы могли бы также быть неуверенными относительно «лучшей» модели для использования из выбора моделей. Итак, предположим, что вместо этого мы рассуждаем о предложении:
Однако в этом подходе вам нужна какая-то мера соответствия, чтобы оценить, насколько хороша ваша «лучшая» модель. Это можно сделать двумя способами, протестировав модели «безошибочной вещи», что соответствует обычной статистике GoF (дивергенция KL, хи-квадрат и т. Д.). Еще один способ измерить это - включить чрезвычайно гибкую модель в ваш класс моделей - возможно, модель нормальной смеси с сотнями компонентов или смесь процессов Дирихле. Если эта модель окажется лучшей, то, скорее всего, ваши другие модели неадекватны.
Эта статья имеет хорошее теоретическое обсуждение и шаг за шагом рассказывает о том, как вы на самом деле делаете выбор модели.
источник
Я знаю, что люди используют DIC и байесовский фактор, как сказал Suncoolsu. И мне было интересно, когда он сказал: «Есть результаты, которые показывают, что BIC выберет истинную модель с высокой вероятностью» (ссылки?). Но я использую единственное, что я знаю, это задняя предиктивная проверка, отстаиваемая Эндрю Гельманом. Если вы гуглите Эндрю Гельмана и последующие прогностические проверки, вы найдете много вещей. И я бы посмотрел на то, что Кристиан Роберт пишет на ABC о выборе модели . В любом случае, вот некоторые ссылки, которые мне нравятся, и некоторые последние посты в блоге Гельмана:
Блог
DIC и AIC ; Больше на DIC . Проверка модели и внешняя проверка
Документы по задним прогностическим проверкам:
Гельман, Андрей. (2003a). «Байесовская формулировка разведочного анализа данных и испытаний на соответствие». Международный статистический обзор, том. 71, № 2, с. 389-382.
Гельман, Андрей. (2003b). «Исследовательский анализ данных для сложных моделей». Журнал вычислительной и графической статистики, вып. 13, н. 4, с. 755/779.
Гельман, Андрей; МЕЧЕЛЕН, Ивен Ван; VERBEKE, Герт; HEITJAN, Daniel F .; MEULDERS, Мишель. (2005). «Множественное вменение для проверки модели: графики заполненных данных с отсутствующими и латентными данными». Биометрия 61, 74–85, март
Гельман, Андрей; Мэн, Сяо-Ли; Стерн, Хэл. (1996). «Задняя прогнозная оценка пригодности модели через выявленные расхождения». Statistica Sinica, 6, с. 733-807.
источник