Можно ли использовать итерации MCMC после прожига для оценки плотности?

10

После записи можно ли напрямую использовать итерации MCMC для оценки плотности, например, путем построения гистограммы или оценки плотности ядра? Меня беспокоит то, что итерации MCMC не обязательно независимы, хотя в большинстве случаев они распределены одинаково.

Что если мы дополнительно применим прореживание к итерациям MCMC? Меня беспокоит то, что итерации MCMC в большинстве случаев некоррелированы и еще не являются независимыми.

Основание, которое я изучил для использования эмпирической функции распределения в качестве оценки истинной функции распределения, основано на теореме Гливенко-Кантелли , где эмпирическая функция распределения рассчитывается на основе выборки iid. Мне казалось, что я вижу некоторые основания (асимптотические результаты?) Для использования гистограмм или оценок плотности ядра в качестве оценок плотности, но я не могу их вспомнить.

Тим
источник

Ответы:

8

Вы можете - и люди делают - оценить плотность по выборке MCMC.

Следует иметь в виду, что хотя гистограммы и KDE удобны, по крайней мере в простых случаях (таких как выборка Гиббса), могут быть доступны гораздо более эффективные оценки плотности.

Если мы рассмотрим выборку Гиббса, в частности, условная плотность, из которой вы производите выборку, может использоваться вместо самого значения выборки при получении усредненной оценки плотности. Результат имеет тенденцию быть довольно гладким.

Подход обсуждается в

Гельфанд и Смит (1990), "Подходы на основе выборки к расчету предельной плотности",
Журнал Американской статистической ассоциации , Vol. 85, № 410, с. 398-409

(хотя Гейер предупреждает, что, если зависимость сэмплера достаточно высока, она не всегда уменьшает дисперсию и создает условия для этого)

Этот подход также обсуждается, например, в Robert, CP and Casella, G. (1999) Monte Carlo Statistical Methods .

Вам не нужна независимость, вы на самом деле вычисляете среднее значение. Если вы хотите вычислить стандартную ошибку оценки плотности (или файла в формате cdf), то вам необходимо учесть зависимость.

Конечно, то же самое относится и к другим ожиданиям, и поэтому его можно использовать для улучшения оценок многих других видов среднего.

Glen_b - Восстановить Монику
источник
Спасибо! Вы имеете в виду, что, поскольку предельные распределения являются ожиданиями от совместного распределения, не имеет значения использовать коррелированные итерации MCMC для оценки предельных распределений? Что если использовать коррелированные итерации для оценки совместного распределения? Все еще хорошо?
Тим
Нет, это то, что я имею в виду. Я имею в виду, что оценки, с которыми мы имеем дело, являются средними значениями и используются для оценки количества населения, которое может быть в свою очередь истолковано как ожидания этих вещей. Да, вы можете использовать зависимые отрисовки для оценки совместного распределения в том же смысле.
Glen_b
Почему мы можем использовать коррелированные итерации для оценки совместного распределения? Я думаю, что нет, потому что совместное распространение не ожидание чего-либо. Отметим, что в теореме Гливенко – Кантелли эмпирический cdf рассчитывается на основе выборки.
Тим
Что касается плотности, вы можете рассмотреть что-то вроде примерной оценки, описанной здесь, например (и может рассматриваться как предел гистограммы со все более узкими ячейками); это среднее значение, и я полагаю, что его ожидание - плотность. В отношении cdf вы можете подумать, можете ли вы что-то сделать с эмпирическим cdf, чтобы сделать его в виде среднего. Кажется, что обе идеи работают с образцами из совместного распространения.
Glen_b
3

Резюме

Вы можете напрямую использовать итерации MCMC для чего угодно, потому что среднее значение вашей наблюдаемой будет асимптотически приближаться к истинному значению (потому что вы находитесь после выгорания).

Однако имейте в виду, что на дисперсию этого среднего влияют корреляции между выборками. Это означает, что, если выборки коррелированы, как это принято в MCMC, сохранение каждого измерения не принесет никакого реального преимущества.

Теоретически, вы должны измерять после N шагов, где N имеет порядок времени автокорреляции наблюдаемой вами измеряемой величины.

Детальное объяснение

Давайте определим некоторые обозначения, чтобы формально ответить на ваш вопрос. Пусть будет состоянием вашей симуляции MCMC в момент времени , предполагается намного выше, чем время выгорания. Пусть будет наблюдаемой, которую вы хотите измерить.xttf

Например, и : «1, если , 0 else». , естественно, берется из дистрибутива , который вы делаете с помощью MCMC.xtRf=fa(x)x[a,a+Δ]xtP(x)

В любой выборке вам всегда нужно будет вычислять среднее значение наблюдаемого , которое вы делаете, используя оценщик:f

F=1Ni=1Nf(xi)

Мы видим, что среднее значение этой оценки (по отношению к )FP(x)

F=1Ni=1Nf(xi)=f(x)

что вы хотите получить.

Основная проблема заключается в том, что когда вы вычисляете дисперсию этой оценки, , вы получите условия видаF2F2

i=1Nj=1Nf(xi)f(xj)

которые не отменяют, если являются коррелированными выборками. Более того, поскольку вы можете написать , вы можете записать указанную выше двойную сумму как сумму автокорреляционной функции ,xtj=i+ΔfR(Δ)

Итак, резюмируем:

  • Если в вычислительном отношении ничего не стоит хранить каждую меру, вы можете это сделать, но имейте в виду, что дисперсию нельзя вычислить с использованием обычной формулы.

  • Если измерение в вычислительном отношении обходится дорого на каждом шаге вашего MCMC, вы должны найти способ оценить совокупное время автокорреляции и выполнять измерения только каждые . В этом случае измерения независимы и, таким образом, вы можете использовать обычную формулу дисперсии.ττ

Хорхе Лейтао
источник
Это не отвечает на конкретный вопрос, который касался использования образцов из цепи Маркова для построения действительной оценки плотности апостериорного. То, что стандартная ошибка нашей оценки линейного функционала выше, чем наивная оценка, основанная на независимости, хорошо ценится, но ОП все равно не будет знать на основе этого ответа, будет ли хорошей идеей построить оценщик плотности используя, скажем, сглаживание ядра (которое даже при iid-сэмплировании не сходится со скоростью ). n
парень
Истончение - это просто трата полезных данных. Это не уменьшает дисперсию оценки. См. Комментарии к этому вопросу: stats.stackexchange.com/a/258529/58675
DeltaIV
@ DeltaIV, да. Моя точка зрения заключалась в том, что истончение или нет, соответствующая шкала времени - это время автокорреляции.
Хорхе Лейтао