Подходят ли методы, основанные на MCMC, когда доступна максимальная апостериорная оценка?

13

Я заметил, что во многих практических применениях методы, основанные на MCMC, используются для оценки параметра, даже если апостериорный является аналитическим (например, потому что приоры были сопряженными). Для меня имеет смысл использовать MAP-оценки, а не MCMC-оценки. Может ли кто-нибудь указать, почему MCMC все еще является подходящим методом при наличии аналитического апостериора?

bayesian mcmc posterior олограф
источник

2

Можете ли вы привести пример этого на практике? Обратите внимание, что есть отличие от предшествующего сопряженного и условно сопряженного . Во многих приложениях отбора проб Гиббса выбранные априоры условно сопряжены, но сам априор не сопряжен; например, рассмотрим скрытое распределение Дирихле.

парень

4

Неясно, что MAP имеет отношение к этому также. Байесовская оценка является задним средним значением, а не задним показателем. Даже когда априорные значения не сопряжены, вы часто можете провести некоторую оптимизацию, чтобы получить оценку MAP - STAN делает это более или менее до сих пор. Смысл выполнения MCMC заключается в оценке апостериорного распределения, которое содержит гораздо больше информации, чем просто оценщик MAP.

парень

12

В этом случае нет необходимости использовать MCMC: Марковская цепь Монте-Карло (MCMC) - это метод, используемый для генерации значений из распределения. Он создает марковскую цепочку автокоррелированных значений со стационарным распределением, равным целевому распределению. Этот метод все еще будет работать, чтобы получить то, что вы хотите, даже в тех случаях, когда целевой дистрибутив имеет аналитическую форму. Однако существуют более простые и менее вычислительные методы, которые работают в подобных случаях, когда вы имеете дело с апостериорным, который имеет приятную аналитическую форму.

В случае, когда апостериорное распределение имеет доступную аналитическую форму, можно получить оценки параметров (например, MAP) путем оптимизации из этого распределения с использованием стандартных методов исчисления. Если целевое распределение достаточно простое, вы можете получить решение для закрытой формы для оценки параметров, но даже если это не так, вы обычно можете использовать простые итерационные методы (например, Ньютона-Рафсона, градиент-спуск и т. Д.), Чтобы найти оптимизация оценки параметров для любых заданных входных данных. Если у вас есть аналитическая форма для функции квантили целевого распределения, и вам нужно сгенерировать значения из распределения, вы можете сделать это с помощью выборки с обратным преобразованием, который требует меньше вычислительных ресурсов, чем MCMC, и позволяет генерировать значения IID, а не значения со сложными шаблонами автокорреляции.

Ввиду этого, если вы программировали с нуля, то, по-видимому, нет никаких причин использовать MCMC в случае, когда целевой дистрибутив имеет доступную аналитическую форму. Единственная причина, по которой вы могли бы сделать это, - если у вас уже есть общий алгоритм для MCMC, который может быть реализован с минимальными усилиями, и вы решаете, что эффективность использования аналитической формы перевешивается усилиями по выполнению требуемой математики. В определенных практических ситуациях вы будете иметь дело с проблемами, которые обычно трудно решить, когда алгоритмы MCMC уже установлены и могут быть реализованы с минимальными усилиями (например, если вы выполняете анализ данных вRStan). В этих случаях может оказаться проще всего использовать существующие методы MCMC, а не выводить аналитические решения проблем, хотя последний, конечно, может использоваться для проверки вашей работы.

Восстановить Монику
источник

10

$\pi(\theta)$

\underset{δ}{мин} \int_{Θ} L (θ, δ) \tilde{π} (θ) е (Икс | θ) d θ

$\min_\delta\int_\Theta \text{L}(\theta,\delta)\,\tilde\pi(\theta)\,f(x|\theta)\,\text{d}\theta$

\tilde{π} (\cdot) \propto π (\cdot)

$\tilde\pi(\cdot)\propto\pi(\cdot)$

\int \tilde{π} (θ) d θ

$\int \tilde\pi(\theta)\,\text{d}\theta$

x, y \in (0, 1)

$x,y\in(0,1)$

f_{θ} (x, y) = \frac{1 + θ [(1 + x) (1 + y) - 3] + θ^{2} (1 - x) (1 - y))}{[1 - θ (1 - x) (1 - y)]^{3}} θ \in (- 1, 1)

$f_\theta(x,y)=\dfrac{1+\theta[(1+x)(1+y)-3]+\theta^2(1-x)(1-y)) }{[1-\theta(1-x)(1-y)]^3}\qquad\theta\in(-1,1)$

Φ^{- 1} (X)

$\Phi^{-1}(X)$

Y = y

$Y=y$

Φ (.)

$\Phi(.)$

Отметим также, что максимальная апостериорная оценка не является самой естественной оценкой в байесовской системе, поскольку она не соответствует функции потерь, и что представление плотности в замкнутой форме, даже с точностью до константы, не дает возможности найти MAP обязательно легко. Или с помощью карты MAP.

Сиань
источник

2

Когда я читаю, этот вопрос задает два несколько ортогональных вопроса. Один из них заключается в том, следует ли использовать оценки MAP над задними средними, а второй - следует ли использовать MCMC, если задний имеет аналитическую форму.

Что касается оценок MAP по задним средним значениям, то с теоретической точки зрения задние средние значения обычно являются предпочтительными, как отмечает @Xian в своем ответе. Реальное преимущество для оценок MAP заключается в том, что, особенно в более типичном случае, когда апостериор не находится в замкнутой форме, их можно вычислить намного быстрее (т.е. на несколько порядков), чем оценка апостериорного среднего. Если апостериор является приблизительно симметричным (что часто имеет место во многих проблемах с большими размерами выборки), тогда оценка MAP должна быть очень близка к средней апостериорной. Таким образом, привлекательность MAP заключается в том, что она может быть очень дешевым приближением к последнему среднему значению.

Обратите внимание, что знание нормализующей константы не помогает нам найти апостериорный режим, поэтому технически решение для задней аппроксимации в замкнутой форме технически не помогает нам найти оценку MAP, за исключением случая, когда мы распознаем апостериор как конкретное распределение, для которого мы знаем, что это режим.

Что касается второго вопроса, если у апостериорного распределения замкнутая форма, вообще говоря, нет смысла использовать алгоритмы MCMC. Теоретически, если у вас было решение для замкнутой формы для апостериорного распределения, но у вас не было замкнутой формы для среднего значения некоторой функции и вы не могли напрямую рисовать из этого распределения замкнутой формы, то можно обратиться к алгоритмам MCMC. Но я не знаю ни одного случая этой ситуации.

Клифф AB
источник

1

Я бы сказал, что методы MCMC не обязательно неуместны , даже если существуют решения в закрытой форме. Очевидно, что хорошо, когда существует аналитическое решение: они обычно бывают быстрыми, вы избегаете проблем с конвергенцией (и т. Д.).

С другой стороны, последовательность также важна. Переход от техники к технике усложняет вашу презентацию: в лучшем случае, это посторонние детали, которые могут сбить с толку или отвлечь аудиторию от вашего существенного результата, а в худшем случае это может выглядеть как попытка исказить результаты. Если бы у меня было несколько моделей, только некоторые из которых допускают решения в закрытой форме, я бы настоятельно рекомендовал запускать их все через один и тот же конвейер MCMC, даже если в этом не было строгой необходимости.

Я подозреваю, что плюс инерция («у нас есть этот скрипт, который работает») объясняет большую часть того, что вы видите.

Мэтт Краузе
источник

Подходят ли методы, основанные на MCMC, когда доступна максимальная апостериорная оценка?

Ответы: