В настоящее время я изучаю иерархические байесовские модели, используя JAGS из R, а также pymc, используя Python ( «Байесовские методы для хакеров» ).
Я могу получить некоторую интуицию из этого поста : «в итоге вы получите кучу чисел, которые выглядят так, словно« вам каким-то образом удалось взять независимые сэмплы из сложного дистрибутива, о котором вы хотели знать ». Это что-то вроде того, что я могу дать условную вероятность, тогда я могу сгенерировать процесс без памяти на основе условной вероятности. Когда я генерирую процесс достаточно долго, объединенная вероятность может сходиться, и тогда я могу взять кучу чисел в конце сгенерированной последовательности. Это как будто я беру независимые сэмплы из сложного совместного дистрибутива. Например, я могу сделать гистограмму, и она может приблизить функцию распределения.
Тогда моя проблема заключается в том, нужно ли мне доказывать, сходится ли MCMC для определенной модели? Я мотивирован, чтобы знать это, потому что я ранее изучил алгоритм EM для GMM и LDA (графические модели). Если я могу просто использовать алгоритм MCMC, не доказывая, сходится ли он, то он может сэкономить гораздо больше времени, чем EM. Так как мне нужно будет рассчитать ожидаемую логарифмическую функцию правдоподобия (придется вычислять апостериорную вероятность), а затем максимизировать ожидаемую логарифмическую вероятность. Это очевидно более громоздко, чем MCMC (мне просто нужно сформулировать условную вероятность).
Мне также интересно, сопряжены ли функция правдоподобия и предшествующее распределение. Значит ли это, что MCMC должен сходиться? Мне интересно об ограничениях MCMC и EM.
источник
Ответы:
EM - это метод оптимизации: учитывая вероятность с полезными скрытыми переменными, он возвращает локальный максимум, который может быть глобальным максимумом в зависимости от начального значения.
MCMC - это метод симуляции: с учетом вероятности с латентными переменными или без них, и ранее, он производит выборку, которая приблизительно распределена из апостериорного распределения. Первые значения этого образца обычно зависят от начального значения, что означает, что они часто отбрасываются как стадия прогрева (или прогрева).
Когда эта выборка используется для оценки интегралов, связанных с апостериорным распределением [подавляющее большинство случаев], свойства сходимости по существу те же, что и в приближении Монте-Карло, в силу эргодической теоремы.
Если требуется больше, т. Гарантия того, что является выборкой из апостериорного , доступны некоторые методы оценки сходимости, например в пакете R CODA . Теоретически инструменты, обеспечивающие конвергенцию, по-видимому, недосягаемы для вас. Например, идеальные методы отбора проб или обновления .(xt,…,xt+T) π(x|D)
источник