Основываясь на небольшом знании о методах MCMC (цепочка Маркова, Монте-Карло), я понимаю, что отбор проб является важной частью вышеупомянутой техники. Наиболее часто используемые методы отбора проб - это гамильтониан и метрополис.
Есть ли способ использовать машинное обучение или даже глубокое обучение для создания более эффективного сэмплера MCMC?
Ответы:
Да. В отличие от того, что говорится в других ответах, «типичные» методы машинного обучения, такие как непараметрические и (глубокие) нейронные сети, могут помочь в создании лучших сэмплеров MCMC.
Целью MCMC является отбор образцов из (ненормализованного) целевого распределения . Полученные выборки используются для аппроксимации f и в основном позволяют вычислять ожидания функций при f (т. Е. Многомерных интегралов) и, в частности, свойств f (например, моментов).е( х ) е е е
Выборка обычно требует большого количества оценок и, возможно, его градиента, для таких методов, как гамильтонов Монте-Карло (HMC). Если оценка f является дорогостоящей или градиент недоступен, иногда можно создать менее дорогую суррогатную функцию, которая может помочь в проведении выборки и оценивается вместо f (таким образом, что все еще сохраняется свойства MCMC).е е е
Например, в основной статье ( Rasmussen 2003 ) предлагается использовать гауссовские процессы (аппроксимация непараметрической функции) для построения аппроксимации для и выполнения HMC для суррогатной функции только с шагом принятия / отклонения HMC на основе f . Это уменьшает количество оценок исходного f и позволяет выполнять MCMC для PDF-файлов, которые в противном случае были бы слишком дорогими для оценки.журнале е е
Идея использования суррогатов для ускорения MCMC много раз исследовалась в последние несколько лет, в основном путем попытки разных способов создать суррогатную функцию и эффективно / адаптивно комбинировать ее с различными методами MCMC (и таким образом, чтобы сохранить «правильность». 'отбора проб MCMC). Что касается вашего вопроса, то в этих двух совсем недавних статьях для построения суррогатной функции используются передовые методы машинного обучения - случайные сети ( Zhang et al. 2015 ) или адаптивно изученные экспоненциальные функции ядра ( Strathmann et al. 2015 ).
HMC не единственная форма MCMC, которая может извлечь выгоду из суррогатов. Например, Nishiara et al. (2014) построение аппроксимации целевой плотности путем подгонки многомерного распределения Стьюдента к многоцепочечному состоянию ансамблевого сэмплера и использования его для выполнения обобщенной формы выборки эллиптических срезов .T
Это только примеры. В целом, ряд различных методов ML (главным образом в области аппроксимации функций и оценки плотности) может использоваться для извлечения информации, которая может повысить эффективность пробоотборников MCMC. Их фактическая полезность - например, измеряемая количеством «эффективных независимых выборок в секунду» - зависит от того, является ли дорогостоящим или несколько сложным для вычисления; Кроме того, многие из этих методов могут потребовать настройки собственных или дополнительных знаний, что ограничивает их применимость.е
Ссылки:
Расмуссен, Карл Эдвард. «Гауссовские процессы для ускорения гибридной Монте-Карло для дорогих байесовских интегралов». Байесовская статистика 7. 2003.
Чжан, Чэн, Бабак Шахбаба и Хункай Чжао. «Гамильтоново ускорение Монте-Карло с использованием суррогатных функций со случайными основаниями». Препринт arXiv arXiv: 1506.05555 (2015).
Стратманн, Хейко и др. «Безградиентный гамильтониан Монте-Карло с эффективными семействами экспоненциальных ядер». Достижения в нейронных системах обработки информации. 2015.
Нишихара, Роберт, Иэн Мюррей и Райан П. Адамс. «Параллельный MCMC с обобщенной выборкой эллиптических срезов». Журнал исследований машинного обучения 15.1 (2014): 2087-2112.
источник
Метод, который может связать две концепции, - это алгоритм многомерного Метрополиса Гастингса. В этом случае у нас есть целевое распределение (апостериорное распределение) и распределение предложения (обычно многовариантное нормальное или t-распределение).
Хорошо известным фактом является то, что чем дальше распределение предложения от апостериорного распределения, тем менее эффективен пробоотборник. Таким образом, можно представить себе использование какого-либо метода машинного обучения для создания распределения предложения, которое лучше соответствует истинному последнему распределению, чем простое многомерное нормальное / t-распределение.
Тем не менее, не ясно, будет ли это какое-либо улучшение эффективности. Предлагая глубокое изучение, я предполагаю, что вы можете быть заинтересованы в использовании какого-то подхода нейронной сети. В большинстве случаев это будет значительно дороже в вычислительном отношении, чем весь сам метод vanMCMC. Точно так же я не знаю ни одной причины, по которой методы NN (или даже большинство методов машинного обучения) хорошо справляются с обеспечением адекватной плотности за пределами наблюдаемого пространства, что крайне важно для MCMC. Таким образом, даже игнорируя вычислительные затраты, связанные с построением модели машинного обучения, я не вижу веской причины, по которой это могло бы повысить эффективность выборки.
источник
Машинное обучение связано с прогнозированием, классификацией или кластеризацией в контролируемых или неконтролируемых условиях. С другой стороны, MCMC просто занимается оценкой сложного интеграла (обычно без замкнутой формы) с использованием вероятностных численных методов. Выборка из метрополии определенно не самый распространенный подход. Фактически, это единственный метод MCMC, который не имеет вероятностного компонента. Таким образом, ML не сообщит ничего с MCMC в этом случае.
Выборка на основе Важности делает требует вероятностного компонента. Это более эффективно, чем Метрополис при некоторых основных предположениях. Методы ML могут использоваться для оценки этого вероятностного компонента, если он согласуется с некоторыми допущениями. Примерами могут быть многомерная кластеризация для оценки сложной многомерной гауссовской плотности. Я не знаком с непараметрическими подходами к этой проблеме, но это может быть интересной областью развития.
Тем не менее, ML выделяется для меня как особый шаг в процессе оценки модели многомерной комплексной вероятности, которая впоследствии используется в численном методе. Я не вижу, как ML действительно улучшает MCMC в этом случае.
источник
Было несколько недавних работ в вычислительной физике, где авторы использовали ограниченные машины Больцмана для моделирования распределения вероятностей, а затем предложили (надеюсь) эффективные обновления Монте-Карло arXiv: 1610.02746 . Идея здесь оказывается весьма похожей на ссылки, приведенные выше в @lacerbi.
В другой попытке 1702.08586 автор явным образом построил машины Больцмана, которые могут выполнять (и даже обнаруживать) знаменитые обновления Монте-Карло .
источник