Из любого общего алгоритма выборки можно получить алгоритм оптимизации.
Действительно, чтобы максимизировать произвольную функцию , достаточно извлечь образцы из . При достаточно малых значениях эти выборки окажутся вблизи глобального максимума (или на практике локального максимума) функции .
Под «выборкой» я подразумеваю рисование псевдослучайной выборки из распределения с учетом функции логарифмического правдоподобия, известной с точностью до константы. Например, выборка MCMC, выборка Гиббса, выборка луча и т. Д. Под «оптимизацией» я подразумеваю попытку найти параметры, максимизирующие значение данной функции.
Возможно ли обратное? Учитывая эвристику, чтобы найти максимум функции или комбинаторного выражения, можем ли мы извлечь эффективную процедуру выборки?
Например, HMC, кажется, использует информацию градиента. Можем ли мы построить процедуру выборки, которая использует BFGS-подобное приближение гессиана? (редактировать: очевидно да: http://papers.nips.cc/paper/4464-quasi-newton-methods-for-markov-chain-monte-carlo.pdf ) Мы можем использовать MCTS в комбинаторных задачах, можем ли мы перевести это в процедуру отбора проб?
Контекст: сложность выборки часто заключается в том, что большая часть распределения вероятностей находится в очень маленькой области. Существуют интересные методы для поиска таких регионов, но они напрямую не переводятся в объективные процедуры отбора проб.
Редактировать: Теперь у меня есть ощущение, что ответ на этот вопрос несколько эквивалентен равенству классов сложности #P и NP, что делает ответ вероятным «нет». Это объясняет, почему каждый метод выборки дает метод оптимизации, а не наоборот.
источник
Ответы:
Макс Веллинг и его друзья рассказали об одной связи в этих двух статьях:
Суть в том, что «учусь», т.е. оптимизация модели плавно переходит в выборку сзади.
источник
Есть ссылка, это трюк Гамбеля-Макса!
http://www.cs.toronto.edu/~cmaddis/pubs/astar.pdf
источник
источник