После записи можно ли напрямую использовать итерации MCMC для оценки плотности, например, путем построения гистограммы или оценки плотности ядра? Меня беспокоит то, что итерации MCMC не обязательно независимы, хотя в большинстве случаев они распределены одинаково.
Что если мы дополнительно применим прореживание к итерациям MCMC? Меня беспокоит то, что итерации MCMC в большинстве случаев некоррелированы и еще не являются независимыми.
Основание, которое я изучил для использования эмпирической функции распределения в качестве оценки истинной функции распределения, основано на теореме Гливенко-Кантелли , где эмпирическая функция распределения рассчитывается на основе выборки iid. Мне казалось, что я вижу некоторые основания (асимптотические результаты?) Для использования гистограмм или оценок плотности ядра в качестве оценок плотности, но я не могу их вспомнить.
Резюме
Вы можете напрямую использовать итерации MCMC для чего угодно, потому что среднее значение вашей наблюдаемой будет асимптотически приближаться к истинному значению (потому что вы находитесь после выгорания).
Однако имейте в виду, что на дисперсию этого среднего влияют корреляции между выборками. Это означает, что, если выборки коррелированы, как это принято в MCMC, сохранение каждого измерения не принесет никакого реального преимущества.
Теоретически, вы должны измерять после N шагов, где N имеет порядок времени автокорреляции наблюдаемой вами измеряемой величины.
Детальное объяснение
Давайте определим некоторые обозначения, чтобы формально ответить на ваш вопрос. Пусть будет состоянием вашей симуляции MCMC в момент времени , предполагается намного выше, чем время выгорания. Пусть будет наблюдаемой, которую вы хотите измерить.xt t f
Например, и : «1, если , 0 else». , естественно, берется из дистрибутива , который вы делаете с помощью MCMC.xt∈R f=fa(x) x∈[a,a+Δ] xt P(x)
В любой выборке вам всегда нужно будет вычислять среднее значение наблюдаемого , которое вы делаете, используя оценщик:f
Мы видим, что среднее значение этой оценки (по отношению к )⟨F⟩ P(x)
что вы хотите получить.
Основная проблема заключается в том, что когда вы вычисляете дисперсию этой оценки, , вы получите условия вида⟨F2⟩−⟨F⟩2
которые не отменяют, если являются коррелированными выборками. Более того, поскольку вы можете написать , вы можете записать указанную выше двойную сумму как сумму автокорреляционной функции ,xt j=i+Δ f R(Δ)
Итак, резюмируем:
Если в вычислительном отношении ничего не стоит хранить каждую меру, вы можете это сделать, но имейте в виду, что дисперсию нельзя вычислить с использованием обычной формулы.
Если измерение в вычислительном отношении обходится дорого на каждом шаге вашего MCMC, вы должны найти способ оценить совокупное время автокорреляции и выполнять измерения только каждые . В этом случае измерения независимы и, таким образом, вы можете использовать обычную формулу дисперсии.τ τ
источник