При получении образцов MCMC для определения конкретного параметра, каковы хорошие ориентиры для минимального количества эффективных образцов, к которым следует стремиться?
И меняется ли этот совет по мере того, как модель становится более или менее сложной?
bayesian
sample-size
mcmc
posterior
Мэтт Альбрехт
источник
источник
Ответы:
Вопрос, который вы задаете, отличается от «диагностики сходимости». Допустим, вы выполнили всю диагностику конвергенции (выберите свою любимую (ые)) и теперь готовы начать отбор проб сзади.
Существует два варианта с точки зрения эффективного размера выборки (ESS), вы можете выбрать одномерный ESS или многовариантный ESS. Однофакторный ESS обеспечит эффективный размер выборки для каждого параметра в отдельности, а консервативные методы требуют, чтобы вы выбирали наименьшую оценку. Этот метод игнорирует все взаимные корреляции между компонентами. Это, вероятно, то, что большинство людей использовали некоторое время
Недавно было представлено многомерное определение ESS. Многомерный ESS возвращает одно число для эффективного размера выборки для количеств, которые вы хотите оценить; и делает это путем учета всех взаимных корреляций в процессе. Лично я предпочитаю многомерный ESS. Предположим, вас интересует вектор средних значений апостериорного распределения. MESS определяется следующим образом: mESS = n ( | Λ |p
Вот
multiESS
Эта недавняя статья содержит теоретически обоснованную нижнюю границу количества необходимых эффективных образцов. Перед симуляцией нужно определиться
minESS
Это верно для любой проблемы (в условиях регулярности). Способ, которым этот метод адаптируется от проблемы к проблеме, состоит в том, что медленное перемешивание цепей Маркова занимает больше времени, чтобы достичь этой нижней границы, поскольку mESS будет меньше. Так что теперь вы можете пару раз
multiESS
проверить, достигла ли ваша цепь Маркова этой границы; если не пойти и взять больше образцов.источник
multiESS
закодирована для других языков, таких как MATLAB? (или это будет трудно переопределить?)Сходимость зависит от нескольких факторов: количества параметров, самой модели, алгоритма выборки, данных ...
Я хотел бы предложить избегать какого-либо общего правила и использовать несколько инструментов диагностики сходимости для определения соответствующего количества выгорания и уменьшения числа итераций в каждом конкретном примере. Смотрите также
http://www.johnmyleswhite.com/notebook/2010/08/29/mcmc-diagnostics-in-r-with-the-coda-package/
,http://users.stat.umn.edu/~geyer/mcmc/diag.html
.источник