Решение проблемы неопределенности модели

25

Мне было интересно, как байесовцы в сообществе CrossValidated рассматривают проблему неопределенности модели и как они предпочитают с ней бороться? Я постараюсь изложить свой вопрос в двух частях:

Насколько важно (по вашему опыту / мнению) иметь дело с неопределенностью модели? Я не нашел ни одной статьи, посвященной этой проблеме, в сообществе машинного обучения, поэтому мне просто интересно, почему.
Каковы общие подходы к обработке неопределенности модели (бонусные баллы, если вы предоставите ссылки)? Я слышал об усреднении байесовской модели, хотя я не знаком со специфическими методами / ограничениями этого подхода. Какие еще есть и почему вы предпочитаете одно другому?

machine-learning bayesian model-selection Ник
источник

1

Менее популярным методом (но с возрастающей популярностью) являются правила подсчета, которые оценивают прогнозную эффективность моделей.

17

Есть два случая, которые возникают при выборе модели:

Когда истинная модель принадлежит в модельном пространстве.

Это очень просто иметь дело с использованием BIC . Есть результаты, которые показывают, что BIC выберет истинную модель с высокой вероятностью.

Однако на практике очень редко мы знаем настоящую модель. Я должен отметить, что BIC, как правило, из-за этого злоупотребляет (вероятной причиной является то, что он похож на AIC ) . Эти вопросы были рассмотрены на этом форуме ранее в различных формах. Хорошая дискуссия здесь .

Когда истинная модель не находится в модельном пространстве.

Это активная область исследований в байесовском сообществе. Тем не менее, подтверждается, что люди знают, что использование BIC в качестве критерия выбора модели в этом случае опасно. Недавняя литература по анализу данных высокого измерения показывает это. Одним из таких примеров является это . Байесовский фактор определенно работает на удивление хорошо при больших размерах. Было предложено несколько модификаций BIC, таких как mBIC, но консенсуса нет. RJMCMC Грина - еще один популярный способ выбора байесовской модели, но у него есть свои недостатки. Вы можете следить за этим подробнее.

В байесовском мире есть еще один лагерь, который рекомендует усреднение моделей. Известное существо, доктор Рафтери.

Байесовская модель усреднения.

Этот веб-сайт Криса Волинкси является исчерпывающим источником информации об байесовской модели. Некоторые другие работы здесь .

Опять же, байесовский выбор моделей по-прежнему является активной областью исследований, и вы можете получить очень разные ответы в зависимости от того, кого вы спрашиваете.

suncoolsu
источник

\log | A_{n} | \approx \log | n A_{1} | = p \log n + \log | A_{1} |

$\log|A_n|\approx\log|nA_1|=p\log n+\log|A_1|$

A_{n}

$A_n$

A_{1}

$A_1$

\log | A_{1} | = O (1)

$\log|A_1|=O(1)$

это также может быть связано с плохой работой приближения Лапласа

вероятностная

11

«Истинный» байесовский метод будет иметь дело с неопределенностью модели путем маргинализации (интеграции) по всем вероятным моделям. Так, например, в задаче регрессии с линейным гребнем вы должны маргинализировать параметры регрессии (которые будут иметь гауссовский апостериор, так что это может быть сделано аналитически), но затем маргинализироваться по гиперпараметрам (уровень шума и параметр регуляризации) с помощью, например, MCMC методы.

«Меньшее» байесовское решение состояло бы в том, чтобы маргинализовать параметры модели, но оптимизировать гиперпараметры путем максимизации предельной вероятности (также известной как «байесовское доказательство») для модели. Однако это может привести к большему переоснащению, чем можно было ожидать (см., Например, Коули и Тэлбот ). Посмотрите работу Дэвида Маккея для получения информации о максимизации доказательств в машинном обучении. Для сравнения см. Работу Рэдфорда Нила о подходе «интегрировать все из» к аналогичным проблемам. Обратите внимание, что доказательная база очень удобна для ситуаций, когда интеграция слишком затратна в вычислительном отношении, поэтому существуют возможности для обоих подходов.

Эффективно байесовцы интегрируют, а не оптимизируют. В идеале, мы должны заявить о нашем предварительном убеждении относительно характеристик решения (например, гладкости) и делать прогнозы без каких-либо действий, фактически не создавая модель. «Модели» гауссовского процесса, используемые в машинном обучении, являются примером этой идеи, где ковариационная функция кодирует наше предварительное убеждение относительно решения. Смотрите отличную книгу Расмуссена и Уильямса .

Для практических байесовцев всегда есть перекрестная проверка, ее трудно превзойти для большинства вещей!

Дикран Сумчатый
источник

11

Одна из интересных вещей, которые я нахожу в мире «неопределенности модели», - это понятие «истинной модели». Это косвенно означает, что наши «модельные предложения» имеют вид:

M_{я}^{(1)} : I-я модель - настоящая модель

$M_i^{(1)}:\text{The ith model is the true model}$

$P(M_i^{(1)}|DI)$ $M_i^{(1)}$

Исчерпывающее значение здесь имеет решающее значение, потому что это обеспечивает увеличение вероятности до 1, что означает, что мы можем исключить модель.

Но это все на концептуальном уровне - усреднение модели имеет хорошие показатели. Так что это означает, что должна быть лучшая концепция.

Лично я рассматриваю модели как инструменты, такие как молоток или дрель. Модели - это ментальные конструкции, используемые для предсказаний или описания вещей, которые мы можем наблюдать. Звучит странно, если говорить об «истинном молотке», и столь же странно говорить об «истинном умственном конструкте». Исходя из этого, понятие «истинная модель» кажется мне странным. Кажется намного более естественным думать о «хороших» моделях и «плохих» моделях, а не о «правильных» моделях и «неправильных» моделях.

Принимая эту точку зрения, мы могли бы также быть неуверенными относительно «лучшей» модели для использования из выбора моделей. Итак, предположим, что вместо этого мы рассуждаем о предложении:

M_{я}^{(2)} : Из всех моделей, которые были указаны,

$M_i^{(2)}:\text{Out of all the models that have been specified,}$

i-я модель - лучшая модель для использования

$\text{the ith model is best model to use}$

$M_{i}^{(2)}$ $M_{i}^{(2)}$

Однако в этом подходе вам нужна какая-то мера соответствия, чтобы оценить, насколько хороша ваша «лучшая» модель. Это можно сделать двумя способами, протестировав модели «безошибочной вещи», что соответствует обычной статистике GoF (дивергенция KL, хи-квадрат и т. Д.). Еще один способ измерить это - включить чрезвычайно гибкую модель в ваш класс моделей - возможно, модель нормальной смеси с сотнями компонентов или смесь процессов Дирихле. Если эта модель окажется лучшей, то, скорее всего, ваши другие модели неадекватны.

Эта статья имеет хорошее теоретическое обсуждение и шаг за шагом рассказывает о том, как вы на самом деле делаете выбор модели.

probabilityislogic
источник

Большой +1. Очень вдумчивый, четкий анализ.

whuber

Отличный ответ. Стоит отметить, что, судя по конкретному классу моделей, BIC великолепен. Однако, как вы упоминаете, в большинстве случаев истинная модель находится за пределами модельного пространства. Затем, как вы уже упомянули, близость между истинной моделью и «лучшей моделью» имеет смысл. На эти ответы пытаются ответить AIC и другие IC. БМА работает, но он также показал, что не работает. Это не значит, что это плохо, но мы должны быть осторожны, думая об этом как об универсальной альтернативе.

Suncoolsu

1

C R A P = C R A P = \frac{1}{N} \sum_{i = 1}^{N} C R A P_{i}

$CRAP=CRAP=\frac{1}{N}\sum_{i=1}^{N} CRAP_i$

4

Я знаю, что люди используют DIC и байесовский фактор, как сказал Suncoolsu. И мне было интересно, когда он сказал: «Есть результаты, которые показывают, что BIC выберет истинную модель с высокой вероятностью» (ссылки?). Но я использую единственное, что я знаю, это задняя предиктивная проверка, отстаиваемая Эндрю Гельманом. Если вы гуглите Эндрю Гельмана и последующие прогностические проверки, вы найдете много вещей. И я бы посмотрел на то, что Кристиан Роберт пишет на ABC о выборе модели . В любом случае, вот некоторые ссылки, которые мне нравятся, и некоторые последние посты в блоге Гельмана:

Блог

DIC и AIC ; Больше на DIC . Проверка модели и внешняя проверка

Документы по задним прогностическим проверкам:

Гельман, Андрей. (2003a). «Байесовская формулировка разведочного анализа данных и испытаний на соответствие». Международный статистический обзор, том. 71, № 2, с. 389-382.

Гельман, Андрей. (2003b). «Исследовательский анализ данных для сложных моделей». Журнал вычислительной и графической статистики, вып. 13, н. 4, с. 755/779.

Гельман, Андрей; МЕЧЕЛЕН, Ивен Ван; VERBEKE, Герт; HEITJAN, Daniel F .; MEULDERS, Мишель. (2005). «Множественное вменение для проверки модели: графики заполненных данных с отсутствующими и латентными данными». Биометрия 61, 74–85, март

Гельман, Андрей; Мэн, Сяо-Ли; Стерн, Хэл. (1996). «Задняя прогнозная оценка пригодности модели через выявленные расхождения». Statistica Sinica, 6, с. 733-807.

Маноэль Галдино
источник

Решение проблемы неопределенности модели

Ответы: