Когда MCMC полезен?

12

У меня возникли проблемы с пониманием, в какой ситуации подход MCMC действительно полезен. Я рассматриваю игрушечный пример из книги Крушке «Анализ байесовских данных: учебник по R и BUGS».

До сих пор я понимал, что нам нужно целевое распределение, пропорциональное , чтобы иметь выборку . Однако, мне кажется, что как только у нас есть нам нужно только нормализовать распределение, чтобы получить апостериор, и коэффициент нормализации можно легко найти численно. Так в каких случаях это невозможно?P ( θ | D ) p ( D | θ ) p ( θ )p(D|θ)p(θ)P(θ|D)p(D|θ)p(θ)

Vaaal
источник
2
Предположим, что не скаляр, а вектор \ boldsymbol \ theta, имеющий 10000 измерений. θθ
Ян Галковски
1
Мой ответ был немного кратким. Чтобы получить константу, нужно вычислить p(D|θ)p(θ) . Предположим, что даже в скалярном случае p(D|θ) действительно шаткое, поэтому сложную интеграцию сделать трудно даже численно. Тогда вы можете использовать MCMC.
Ян Галковски
2
Предупреждение Алана Сокаля: «Монте-Карло - крайне плохой метод; его следует использовать только тогда, когда все альтернативные методы являются худшими». Затем он вступает в длительное обсуждение методов МС. stat.unc.edu/faculty/cji/Sokal.pdf
Яир Даон
1
@Yair: Для меня это звучит так, будто Сокаль направляет Черчилля.
кардинал
1
Когда больше ничего не будет работать ...
kjetil b halvorsen

Ответы:

10

Интеграция Монте-Карло является одной из форм численного интегрирования, которая может быть гораздо более эффективной, чем, например, численное интегрирование путем аппроксимации подынтегрального выражения с полиномами. Это особенно верно в больших измерениях, где простые численные методы интегрирования требуют большого количества оценок функций. Чтобы вычислить нормировочную константу , мы могли бы использовать выборку важности ,p(D)

p(D)=q(θ)q(θ)p(θ)p(Dθ)dθ1Nnwnp(θn)p(Dθn),

где и выбираются из . Обратите внимание, что нам нужно только оценить совместное распределение в выбранных точках. Для правильного эта оценка может быть очень эффективной в том смысле, что требуется очень мало выборок. На практике выбор подходящего может быть трудным, но здесь MCMC может помочь! Отобранная выборка важности (Neal, 1998) объединяет MCMC с выборкой важности.wn=1/q(θn)θnqqq

Еще одна причина, по которой MCMC полезен, заключается в следующем: мы обычно даже не заинтересованы в апостериорной плотности , а скорее в сводной статистике и ожиданиях , например,θ

p(θD)f(θ)dθ.

Знание обычно не означает, что мы можем решить этот интеграл, но выборки - очень удобный способ его оценки.p(D)

Наконец, возможность оценки является требованием для некоторых методов MCMC, но не для всех (например, Murray et al., 2006 ).p(Dθ)p(θ)

Лукас
источник
Извините, но это все еще не ясно для меня. Мой вопрос: если мы просто умножим мы получим ненормализованный pdf. Запустив MCMC, мы получаем образец, для которого мы можем оценить ненормализованный pdf. Если мы хотим, мы могли бы нормализовать оба. Итак, если предположить, что меня не интересует какая-либо сводная статистика, а только постеры, почему мы в первую очередь используем MCMC? Как вы сказали, некоторые методы MCMC не требуют вычисления , поэтому я не имею в виду их. Насколько я знаю, большинство из них требуют вычисления этого. В чем полезность этих методов? p(D|θ)p(θ)p(D|θ)p(θ)
Ваал
2
При запуске MCMC вы получаете образец из нормализованного PDF, поэтому избегайте вычисления константы нормализации. И это бесплатно.
Сиань
2
@Vaaal: Ваше предположение о том, что «коэффициент нормализации можно легко найти численно» справедливо только для простых одномерных распределений. Для многомерного нормализация в общем случае чрезвычайно трудна. В этом случае MCMC все еще можно использовать для оценки константы нормализации (например, с помощью выборки по важности отжига). θp(Dθ)p(θ)
Лукас
6

Когда вам даны предварительные и вероятность , которые либо не вычислимы в закрытой форме, либо такие, что апостериорное распределение не является стандартным типом, моделирование непосредственно от этой цели к приближению апостериорного распределения по методу Монте-Карло не представляется возможным. Типичным примером являются иерархические модели с несопряженными априорными значениями, например, те, которые можно найти в книге BUGS .p(θ)f(x|θ)

p(θ|x)p(θ)f(x|θ)

Методы косвенного моделирования, такие как прием-отклонение, метод расчета коэффициента равномерности или выборки по важности, обычно сталкиваются с трудностями с числовой точностью и точностью, когда размерность параметра превышает несколько единиц.θ

Напротив, методы Монте-Карло с цепью Маркова более пригодны для больших измерений, поскольку они могут исследовать апостериорное распределение на локальной основе, т. Е. В окрестности текущего значения, и на меньшем числе компонентов, т. Е. На подпространствах. Например, сэмплер Гиббса подтверждает утверждение о том, что имитация от одномерной цели за раз, а именно полных условных распределений, связанных с , является достаточной для достижения симуляции из истинного апостериорного значения в долгосрочной перспективе.p(θ|x)

Марковская цепь методов Монте-Карло также обладает некоторой степенью универсальности в том, что алгоритмы, такие как алгоритм Метрополиса-Гастингса, формально доступны для любого апостериорного распределения которое можно вычислить с точностью до константы.p(θ|x)

В случаях, когда не может быть легко вычислено, существуют альтернативы, либо путем завершения этого распределения в управляемое распределение по большему пространству, как в или с помощью немарковских методов, таких как ABC .p(θ)f(x|θ)

p(θ)f(x|θ)g(z|θ,x)p(θ)f(x|θ)dz

Методы MCMC дали гораздо более широкий охват байесовских методов, о чем свидетельствует рост, последовавший за популяризацией метода Аланом Гельфандом и Адрианом Смитом в 1990 году.

Сиань
источник
Ссылка на книгу ошибок больше не работает.
HelloWorld,