MCMC / EM ограничения? MCMC над EM?

9

В настоящее время я изучаю иерархические байесовские модели, используя JAGS из R, а также pymc, используя Python ( «Байесовские методы для хакеров» ).

Я могу получить некоторую интуицию из этого поста : «в итоге вы получите кучу чисел, которые выглядят так, словно« вам каким-то образом удалось взять независимые сэмплы из сложного дистрибутива, о котором вы хотели знать ». Это что-то вроде того, что я могу дать условную вероятность, тогда я могу сгенерировать процесс без памяти на основе условной вероятности. Когда я генерирую процесс достаточно долго, объединенная вероятность может сходиться, и тогда я могу взять кучу чисел в конце сгенерированной последовательности. Это как будто я беру независимые сэмплы из сложного совместного дистрибутива. Например, я могу сделать гистограмму, и она может приблизить функцию распределения.

Тогда моя проблема заключается в том, нужно ли мне доказывать, сходится ли MCMC для определенной модели? Я мотивирован, чтобы знать это, потому что я ранее изучил алгоритм EM для GMM и LDA (графические модели). Если я могу просто использовать алгоритм MCMC, не доказывая, сходится ли он, то он может сэкономить гораздо больше времени, чем EM. Так как мне нужно будет рассчитать ожидаемую логарифмическую функцию правдоподобия (придется вычислять апостериорную вероятность), а затем максимизировать ожидаемую логарифмическую вероятность. Это очевидно более громоздко, чем MCMC (мне просто нужно сформулировать условную вероятность).

Мне также интересно, сопряжены ли функция правдоподобия и предшествующее распределение. Значит ли это, что MCMC должен сходиться? Мне интересно об ограничениях MCMC и EM.

DQ_happy
источник
2
MCMC сходится как по определению. Вместо того, чтобы доказать это, вы диагностируете конвергенцию, чтобы проверить, сходится ли ваша модель, например, math.pku.edu.cn/teachers/xirb/Courses/QR2013/ReadingForFinal/… или people.fas.harvard.edu/~plam/teaching/methods / конвергенция /…n
Тим
3
EM быстрее, он не байесовский (не все любят байесовскую статистику), и в некоторых случаях у него меньше проблем с идентификацией (он сходится к одному максимальному значению, в то время как с подходом MCMC у вас есть целое распределение, которое может быть более сложным, чем точечная оценка ) и т. д.
Тим
2
EM используется для максимальной вероятности или максимальной апостериорной оценки, но первоначально был описан как алгоритм ML и обычно используется в подходе ML (см. En.wikipedia.org/wiki/… ).
Тим
1
Даже если вы используете EM для оценки MAP, а не ML, для меня это не Байесовский, потому что он пытается охарактеризовать апостериорное распределение, но только дает вам локальный способ его распределения.
Лука
1
Для меня использование EM не является байесовским, потому что оно дает вам точечную оценку параметров, представляющих интерес, и не дает количественного определения полного апостериорного распределения. Как с EM, так и с MCMC можно получить полную вероятностную модель с априорными, латентными и наблюдаемыми случайными переменными, но вывод будет другим. MCMC стремится характеризовать полное апостериорное распределение, в то время как EM дает не передать информацию о полном апостериорном распределении. Для меня байесовский это тот, кто использует апостериорное распределение для принятия решений. Тем не менее, это может быть упрощенным. Я также изучаю этот материал.
Лука

Ответы:

13

EM - это метод оптимизации: учитывая вероятность с полезными скрытыми переменными, он возвращает локальный максимум, который может быть глобальным максимумом в зависимости от начального значения.

MCMC - это метод симуляции: с учетом вероятности с латентными переменными или без них, и ранее, он производит выборку, которая приблизительно распределена из апостериорного распределения. Первые значения этого образца обычно зависят от начального значения, что означает, что они часто отбрасываются как стадия прогрева (или прогрева).

Когда эта выборка используется для оценки интегралов, связанных с апостериорным распределением [подавляющее большинство случаев], свойства сходимости по существу те же, что и в приближении Монте-Карло, в силу эргодической теоремы.

Если требуется больше, т. Гарантия того, что является выборкой из апостериорного , доступны некоторые методы оценки сходимости, например в пакете R CODA . Теоретически инструменты, обеспечивающие конвергенцию, по-видимому, недосягаемы для вас. Например, идеальные методы отбора проб или обновления .(xt,,xt+T)π(x|D)

Сиань
источник