Какая связь стоит за Jeffreys Priors и преобразованием, стабилизирующим дисперсию?

Я читал о «Джеффри до» в википедии: « Джеффри до» и видел, что после каждого примера описывается, как преобразование, стабилизирующее дисперсию, превращает «Джеффриса» в униформу.

Например, для случая Бернулли говорится, что для монеты, которая является головой с вероятностью $\gamma \in [0,1]$ , модель испытания Бернулли дает то, что для Джефриса для параметра $\gamma$ является:

p (γ) \propto \frac{1}{\sqrt{γ (1 - γ)}}

$p(\gamma) \propto \frac{1}{\sqrt{\gamma ( 1-\gamma)}}$

Затем утверждается, что это бета-распределение с $\alpha = \beta = \frac{1}{2}$ . В нем также говорится, что если $\gamma = \sin^2(\theta)$ , то приоритет Джеффриса дляравномерен в интервале. $\theta$ $\left[0, \frac{\pi}{2}\right]$

Я признаю преобразование как преобразование, стабилизирующее дисперсию. Что меня смущает, так это:

Почему преобразование, стабилизирующее дисперсию, приводит к равномерному априорному процессу?
Почему мы бы даже хотели униформу до? (так как кажется, что это может быть более восприимчивым к тому, чтобы быть неподобающим)

В общем, я не совсем уверен, почему дается квадрат-синусное преобразование и какую роль играет. Есть ли у кого-нибудь идеи?

bayesian prior jeffreys-prior user1398057
источник

Я собираюсь выдать себя за шарлатана-самоучку, спросив это, но: на какое стабилизирующее дисперсию преобразование вы ссылаетесь?

\frac{1}{\sqrt{\sin^{2} (θ) (1 - \sin^{2} (θ))}}

$\frac{1}{\sqrt{\sin^2(\theta) \left( 1 - \sin^2(\theta) \right)}}$

shadowtalker

Квадратный синус - обычно неправильный способ думать о преобразовании.

- квадратный корень арксинуса или угловое преобразование.

θ = arcsin \sqrt[]{γ}

$\theta = \text{arcsin} \root \of \gamma$

Ник Кокс

Ответы:

Приор Джеффриса инвариантен при репараметризации. По этой причине многие байесовцы считают, что это «неинформативный априор». (Хартиган показал, что существует целое пространство таких априоров для где - априор Джеффриса, а - асимптотически локально-инвариантный априт Хартигана. - Инвариантные априорные распределения ) $J^\alpha H^\beta$ $\alpha + \beta=1$ $J$ $H$

Часто повторяется ложь, что единообразный априор неинформативен, но после произвольного преобразования ваших параметров и единообразного априора для новых параметров означает нечто совершенно иное. Если произвольное изменение параметризации влияет на ваш предшественник, то ваш предшествующий отчетливо информативен.

Использование Джеффриса по определению эквивалентно использованию плоского априора после применения стабилизирующего дисперсию преобразования.
С математической точки зрения, использование предварительного Джеффриса и использование плоского предварительного после применения преобразования, стабилизирующего дисперсию, эквивалентны. С человеческой точки зрения последнее, вероятно, лучше, потому что пространство параметров становится «однородным» в том смысле, что различия все одинаковы во всех направлениях, независимо от того, где вы находитесь в пространстве параметров.

Рассмотрим пример Бернулли. Разве не странно, что результат теста 99% - это то же расстояние до 90%, что 59% до 50%? После вашего преобразования, стабилизирующего дисперсию, прежняя пара более разделена, как и должно быть. Это соответствует нашей интуиции о реальных расстояниях в пространстве. (Математически преобразование, стабилизирующее дисперсию, делает кривизну log-потерь равной единичной матрице.)

Нил Г
источник

1. Я согласен с тем, что единообразный априор не означает «неинформативный» априор, но мой комментарий о том, что не следует оценивать определенное значение над другим, все еще сохраняется (в соответствии с этой конкретной параметризацией). 2. Правильность априора очень важна . Если у вас неправильный априор и у вас есть данные, это не гарантирует, что у вас будет правильный задний план. Так что это очень важно.

Greenparker

1. Но в этом-то и весь смысл: параметризация произвольна, поэтому бессмысленно говорить, что вы не оцениваете одно значение над другим. 2. На практике я никогда не находил это относительно. Это может быть связано с другими людьми, я думаю.

Нил Дж

1. Справедливая точка зрения. 2. Я не уверен, с какими проблемами вы сталкиваетесь, но даже простая гауссовская вероятность с предшествующим Джеффрисом может иметь неправильную заднюю часть. Смотрите мой ответ здесь .

Greenparker

@ Greenparker Ты прав. Я поясню, почему это не касается меня в моем ответе.

Нил Дж

Я не думаю, что редактирование является правильным. Если апостериор неправильный, то MCMC, скорее всего, бессмысленен, поскольку вы пытаетесь извлечь из неопределенного распределения. Представьте себе, что вы пытаетесь сделать выборку из Uniform

используя любую схему выборки. Хотя алгоритм MCMC все еще может быть эргодическим (если у вас есть нулевой рецидив), но ваши образцы будут бесполезны.

(0, \infty)

$(0,\infty)$

Greenparker

На странице Википедии, которую вы предоставили, на самом деле не используется термин «преобразование, стабилизирующее дисперсию». Термин «стабилизирующее дисперсию преобразование» обычно используется для обозначения преобразований, которые делают дисперсию случайной величины постоянной. Хотя в случае с Бернулли это именно то, что происходит с трансформацией, это не совсем то, что является целью. Цель состоит в том, чтобы получить равномерное распределение, а не просто дисперсию, стабилизирующую.

Напомним, что одна из главных целей использования Jeffreys перед том, что она инвариантна относительно преобразований. Это означает, что если вы повторно параметризовали переменную, предыдущая не изменится.

$(1/2, 1/2)$

p_{γ} (γ) \propto \frac{1}{\sqrt{γ (1 - γ)}} .

$p_{\gamma}(\gamma) \propto \dfrac{1}{\sqrt{\gamma(1-\gamma)}}.$

$\gamma = \sin^2(\theta)$ $\theta$ $\theta = \arcsin(\sqrt{\gamma})$ $0 < \gamma < 1$ $0 < \theta < \pi/2$ $\sin^2(x) + \cos^2(x) = 1$

\begin{aligned} F_{θ} (x) & = P (θ < x) \\ = P (\sin^{2} (θ) < \sin^{2} (x)) \\ = P (γ < \sin^{2} (x)) \\ = F_{γ} (\sin^{2} (x)) \\ f_{θ} (x) & = \frac{d F_{γ} (\sin^{2} (x)}{d x} \\ = 2 \sin (x) \cos (x) p_{γ} (\sin^{2} (x)) \\ \propto \sin (x) \cos (x) \frac{1}{\sqrt{\sin^{2} (x) (1 - \sin^{2} (x))}} \\ = 1. \end{aligned}

$\begin{align*} F_{\theta}(x) & = P(\theta < x)\\ & = P(\sin^2(\theta) < \sin^2(x))\\ & = P(\gamma < \sin^2(x))\\ & = F_{\gamma}(\sin^2(x))\\ f_{\theta}(x) & = \dfrac{d F_{\gamma}(\sin^2(x)}{d x}\\ & = 2\sin(x)\cos(x)\,p_{\gamma}(\sin^2(x))\\ & \propto \sin(x)\cos(x) \dfrac{1}{\sqrt{\sin^2(x)(1 - \sin^2(x))}}\\ & =1. \end{align*}$

Thus $\theta$ is the uniform distribution on $(0, \pi/2)$ . This is why the $\sin^2(\theta)$ transformation is used, so that the re-parametrization leads to a uniform distribution. The uniform distribution is now the Jeffreys prior on $\theta$ (since Jeffreys prior is invariant under transformation). This answers your first question.

Often in Bayesian analysis one wants a uniform prior when there is not enough information or prior knowledge about the distribution of the parameter. Such a prior is also called a "diffuse prior" or "default prior". The idea is to not commit to any value in the parameter space more than other values. In such a case the posterior is then completely dependent on the data likelihood. Since,

q (θ | x) \propto f (x | θ) f (θ) \propto f (x | θ) .

$q(\theta|x) \propto f(x|\theta) f(\theta) \propto f(x|\theta).$

If the transformation is such that the transformed space is bounded, (like $(0, \pi/2)$ in this example), then the uniform distribution will be proper. If the transformed space is unbounded, then the uniform prior will be improper, but often the resulting posterior will be proper. Although, one should always verify that this is the case.

Greenparker
источник

This idea that you are "not committing to any value" by using a diffuse prior is wrong. The proof is that you can take any transformation of the space and the diffuse prior will mean something completely different.

Neil G

My comment on "not committing to any value" refers only to that particular parameterization. Of course, transformations will change how the mass is distributed (just like in this Bernoulli example).

Greenparker

Like I said below your other comment, the parametrization is arbitrary, which is why the statement "not committing to any value" is meaningless.

Neil G