«Забывчивость» настоятеля в байесовской обстановке?

Хорошо известно, что по мере того, как у вас появляется больше доказательств (скажем, в виде большего для iid примеров), байесовский априор «забывается», и на большинство выводов влияют доказательства (или вероятность). $n$ $n$

Это легко увидеть для различных конкретных случаев (например, Бернулли с бета-версией или других примеров), но есть ли способ увидеть это в общем случае с $x_1,\ldots,x_n \sim p(x|\mu)$ и какой-нибудь предшествующий $p(\mu)$ ?

РЕДАКТИРОВАТЬ: Я предполагаю, что это не может быть показано в общем случае для любого априора (например, априор точечной массы будет держать заднюю точку точечной массы). Но, возможно, существуют определенные условия, при которых априор забыт.

Вот вид «пути», о котором я думаю, чтобы показать что-то подобное:

Предположим, что пространство параметров равно , и пусть и - два априора, которые помещают ненулевую вероятностную массу на все . Итак, два апостериорных вычисления для каждого предыдущего значения составляют: $\Theta$ $p(\theta)$ $q(\theta)$ $\Theta$

п (θ | {Икс}_{1}, ..., {Икс}_{N}) знак равно \frac{\underset{я}{Π} п ({Икс}_{я} | θ) п (θ)}{\int_{θ} \underset{я}{Π} п ({Икс}_{я} | θ) п (θ) d θ}

$p(\theta | x_1,\ldots,x_n) = \frac{\prod_i p(x_i | \theta) p(\theta)}{\int_{\theta} \prod_i p(x_i | \theta) p(\theta) d\theta}$

Q (θ | {Икс}_{1}, ..., {Икс}_{N}) знак равно \frac{\underset{я}{Π} п ({Икс}_{я} | θ) Q (θ)}{\int_{θ} \underset{я}{Π} п ({Икс}_{я} | θ) Q (θ) d θ}

$q(\theta | x_1,\ldots,x_n) = \frac{\prod_i p(x_i | \theta) q(\theta)}{\int_{\theta} \prod_i p(x_i | \theta) q(\theta) d\theta}$

Если вы разделите на (постеры), то получите: $p$ $q$

p (θ | x_{1}, \dots, x_{n}) / q (θ | x_{1}, \dots, x_{N}) знак равно \frac{п (θ) \int_{θ} \underset{я}{Π} п ({Икс}_{я} | θ) Q (θ) d θ}{Q (θ) \int_{θ} \underset{я}{Π} п ({Икс}_{я} | θ) п (θ) d θ}

$p(\theta | x_1,\ldots,x_n)/q(\theta | x_1,\ldots,x_n) = \frac{p(\theta)\int_{\theta} \prod_i p(x_i | \theta) q(\theta)d \theta}{q(\theta)\int_{\theta} \prod_i p(x_i | \theta) p(\theta)d \theta}$

Теперь я хотел бы изучить вышеуказанный термин, так как $n$ переходит в $\infty$ . В идеале это будет $1$ для определенной $\theta$ которая «имеет смысл» или какое-то другое хорошее поведение, но я не могу понять, как что-то показать там.

bayesian prior bayesianOrFrequentist
источник

Для некоторой интуиции обратите внимание, что вероятность масштабируется в зависимости от размера выборки, в то время как предыдущая - нет.

Макро

@ Макро, спасибо, у меня тоже была эта интуиция, но я не мог продвинуть ее дальше. Смотрите мои правки выше.

bayesianOrFrequentist

В первых нескольких главах учебника Гоша и Рамамурти Байесовская непараметрика раскрывает то, о чем вы говорите (сначала в параметрической, а затем непараметрической); он доступен через Springer онлайн бесплатно, если вы находитесь в соответствующем учреждении. Существует несколько способов формализовать асимптотически отсутствие зависимости от предшествующего, но, конечно, есть несколько условий регулярности.

парень

Обратите внимание, что апостериорное соотношение просто пропорционально предыдущему отношению, поэтому отношение ни вероятности, ни фактических данных не влияет на это.

Вероятность

Ответы:

Просто грубый, но, надеюсь, интуитивно понятный ответ.

Посмотрите на это с точки зрения пространства журнала: где - константа, которая зависит от данных, но не от параметра, и где ваши вероятности предполагают наличие наблюдений. Следовательно, просто сконцентрируйтесь на части, которая определяет форму вашего апостериора, а именно на
$- журнал п (θ | {Икс}_{1}, ..., {Икс}_{N}) знак равно - журнал п (θ) - Σ_{я знак равно 1}^{N} журнал п ({Икс}_{я} | θ) - С_{N}$ $-\log P(\theta|x_1, \ldots, x_n) = -\log P(\theta) -\sum_{i=1}^n \log P(x_i|\theta) - C_n$ $C_n>0$ $S_{N} знак равно - журнал п (θ) - Σ_{я знак равно 1}^{N} журнал п ({Икс}_{я} | θ)$ $S_n = -\log P(\theta) -\sum_{i=1}^n \log P(x_i|\theta)$
Предположим , что существует такое , что . Это разумно для дискретных распределений. $D>0$ $-\log P(\theta) \leq D$
Поскольку условия все положительные, «будет» расти (я пропускаю технические детали здесь). Но вклад предшествующего ограничен . Следовательно, доля, внесенная предшествующим фактором, которая составляет самое большее , монотонно уменьшается с каждым дополнительным наблюдением. $S_n$ $D$ $D/S_n$

Строгие доказательства, конечно, сталкиваются с техническими сложностями (и они могут быть очень сложными), но установка выше ИМХО является самой основной частью.

Педро А. Ортега
источник

Я несколько озадачен тем, что должны означать утверждения «предшествующее забыто» и «на большинство выводов влияют доказательства». Я предполагаю, что вы имеете в виду, что по мере увеличения объема данных (последовательность) оценщика (ов) приближается к истинному значению параметра независимо от нашего предыдущего.

Предполагая некоторые условия регулярности формы апостериорного распределения, оценки Байеса являются последовательными и асимптотически несмещенными (см. Gelman et al, глава 4 ). Это означает, что при увеличении размера выборки оценка Байеса приближается к истинному значению параметра. Согласованность означает, что оценщик Байеса сходится по вероятности к истинному значению параметра, а асимптотическая беспристрастность означает, что, предполагая, что является истинным значением параметра, $\theta_0$

\frac{Е [\hat{θ} | θ_{0}] - θ_{0}}{\sqrt{В a р (\hat{θ})}} \overset{п}{\to} 0

$\frac{E[\hat{\theta}|\theta_0]-\theta_0}{\sqrt{\mathrm{Var}(\hat{\theta})}}\overset{p}\rightarrow0$

Сходимость не зависит от конкретной формы априора, а зависит только от того, что апостериорное распределение, полученное из априора и вероятность, удовлетворяют условиям регулярности.

Самое важное условие регулярности, упомянутое в Gelman et al., Состоит в том, что вероятность быть непрерывной функцией параметра, а истинное значение параметра находится внутри пространства параметров. Также, как вы заметили, апостериор должен быть ненулевым в открытой окрестности истинного значения истинного значения параметра. Обычно ваш предшествующий уровень должен быть ненулевым во всем пространстве параметров.

caburke
источник

спасибо, очень проницательный Я действительно надеялся на результат, который даже не имел бы отношения к «истинному» значению параметра. Просто показывая, что технически, поскольку у вас есть больше доказательств, апостериор, который вы получите, будет таким же, независимо от того, с чего вы начали. Я собираюсь внести некоторые изменения, чтобы отразить это.

bayesianOrFrequentist

@bayesianOrFrequentist Взгляните на так называемую байесовскую центральную предельную теорему .

Стефан Лоран