Проводились ли крупномасштабные исследования методов MCMC, сравнивающих производительность нескольких различных алгоритмов с набором тестовых плотностей? Я думаю о чем-то эквивалентном статье Риоса и Сахинидиса (2013), которая представляет собой тщательное сравнение большого количества оптимизаторов черного ящика без производных по нескольким классам тестовых функций.
Для MCMC эффективность может быть оценена, например, по эффективному количеству выборок (ESS) на оценку плотности или по некоторой другой подходящей метрике.
Несколько комментариев:
Я ценю, что производительность будет сильно зависеть от деталей целевого pdf, но аналогичный (возможно, не идентичный) аргумент справедлив для оптимизации, и, тем не менее, существует множество функций тестирования, наборов, конкурсов, работ и т. Д., Которые имеют дело с оптимизацией бенчмаркинга. алгоритмы.
Кроме того, верно, что MCMC отличается от оптимизации тем, что от пользователя требуется гораздо больше ухода и настройки. Тем не менее, в настоящее время существует несколько методов MCMC, которые практически не требуют настройки: методы, которые адаптируются на этапе приработки, во время отбора проб, или методы с несколькими состояниями (также называемые ансамблями ) (такие как Emcee ), которые развивают несколько взаимодействующих цепочек и используют информация из других цепочек для отбора проб.
Меня особенно интересует сравнение между стандартными и многоуровневыми (ансамблевыми) методами. Для определения мульти-состояния, см. Раздел 30.6 книги Маккея :
В методе с несколькими состояниями поддерживаются несколько векторов параметров ; они развиваются индивидуально под такими движениями, как Метрополис и Гиббс; Есть также взаимодействия между векторами.
- Этот вопрос возник отсюда .
Обновить
- Для интересного ознакомления с методами, состоящими из нескольких состояний или ансамбля, см. Этот пост в блоге Боба Карпентера в блоге Гельмана и мой комментарий, относящийся к этому посту.
источник
Я бы согласился с вашей оценкой, что для методов MCMC не установлены всеобъемлющие критерии. Это связано с тем, что каждый пробоотборник MCMC имеет свои плюсы и минусы и исключительно специфичен для конкретной проблемы.
В типичной настройке байесовского моделирования вы можете запускать один и тот же сэмплер с разными скоростями смешивания, когда данные разные. Я бы сказал, что если в будущем будет проведено всестороннее сравнительное исследование различных пробоотборников MCMC, я бы не стал полагать, что результаты будут применимы за пределами показанных примеров.
Что касается использования ESS для оценки качества выборки, следует отметить, что ESS зависит от количества, которое должно быть оценено из выборки. Если вы хотите найти среднее значение по выборке, полученная ESS будет отличаться от того, если вы хотите оценить 25-й квантиль. Сказав, что, если количество интереса является фиксированным, ESS является разумным способом сравнения пробоотборников. Возможно, лучшая идея - ESS за единицу времени.
Одним из недостатков ESS является то, что для многомерных задач оценки ESS возвращает эффективный размер выборки для каждого компонента в отдельности, игнорируя все взаимные корреляции в процессе оценки. В этой статье недавно была предложена многомерная ESS, которая реализована в
R
пакетеmcmcse
через функциюmultiESS
. Неясно, как этот метод сравнивается с ESScoda
пакета, но в самом начале кажется более разумным, чем одномерные методы ESS.источник