Вероятность против условного распределения для байесовского анализа

Мы можем написать теорему Байеса как

p (θ | x) = \frac{f (X | θ) p (θ)}{\int_{θ} f (X | θ) p (θ) d θ}

$p(\theta|x) = \frac{f(X|\theta)p(\theta)}{\int_{\theta} f(X|\theta)p(\theta)d\theta}$

где - апостериор, - условное распределение, а - априорное. $p(\theta|x)$ $f(X|\theta)$ $p(\theta)$

или же

p (θ | x) = \frac{L (θ | x) p (θ)}{\int_{θ} L (θ | x) p (θ) d θ}

$p(\theta|x) = \frac{L(\theta|x)p(\theta)}{\int_{\theta} L(\theta|x)p(\theta)d\theta}$

где - апостериор, - функция правдоподобия, а - приоритет. $p(\theta|x)$ $L(\theta|x)$ $p(\theta)$

Мой вопрос

Почему байесовский анализ выполняется с использованием функции правдоподобия, а не условного распределения?
Можете ли вы сказать словами, в чем разница между вероятностью и условным распределением? Я знаю, что вероятность - это не распределение вероятностей, а . $L(\theta|x) \propto f(X|\theta)$

bayesian likelihood kzoo
источник

Нет никакой разницы! Вероятность - это условное распределение , ну пропорционально тому, которое имеет значение.

f (X | θ)

$f(X | \theta)$

kjetil b halvorsen

Предыдущий параметр имеет плотность . если реализация имеет значение то время как - наблюдаемое значение случайной величины , то значение функции правдоподобия в точности равно , значение условной плотности из . Разница заключается в том, что для всех реализаций . Однако, как функция от

Θ

$\Theta$

p_{Θ} (θ)

$p_\Theta(\theta)$

Θ

$\Theta$

θ

$\theta$

x

$x$

X

$X$

L (θ ∣ x)

$L(\theta\mid x)$

f (x ∣ θ)

$f(x\mid \theta)$

f_{X ∣ Θ} (x ∣ Θ = θ)

$f_{X\mid\Theta}(x\mid\Theta=\theta)$

X

$X$

\int_{- \infty}^{\infty} f_{X ∣ Θ} (x ∣ Θ = θ) d x = 1

$\int_{-\infty}^{\infty}f_{X\mid\Theta}(x\mid\Theta=\theta)dx=1$

Θ

$\Theta$

θ

$\theta$ (и фиксированной ), является не плотность:

x

$x$

L (θ ∣ x)

$L(\theta\mid x)$

\int L (θ ∣ x) d θ \neq 1

$\int L(\theta\mid x)d\theta\neq 1$

Дилип Sarwate

Ответы:

Предположим, что у вас есть случайные величины (значения которых будут наблюдаться в вашем эксперименте), которые являются условно независимыми, учитывая, что , с условными плотностями , для . Это ваша (постулированная) статистическая (условная) модель, и условные плотности выражают для каждого возможного значения (случайного) параметра вашу неопределенность относительно значений , прежде чем вы получите доступ к любому реальные данные. С помощью условных плотностей вы можете, например, вычислить условные вероятности, такие как $X_1,\dots,X_n$ $\Theta=\theta$ $f_{X_i\mid\Theta}(\,\cdot\mid\theta)$ $i=1,\dots,n$ $\theta$ $\Theta$ $X_i$

P {X_{1} \in B_{1}, \dots, X_{n} \in B_{n} ∣ Θ = θ} = \int_{B_{1} \times \dots \times B_{n}} \prod_{i = 1}^{n} f_{X_{i} ∣ Θ} (x_{i} ∣ θ) d x_{1} \dots d x_{n},

$P\{X_1\in B_1,\dots,X_n\in B_n\mid \Theta=\theta\} = \int_{B_1\times\dots\times B_n} \prod_{i=1}^n f_{X_i\mid\Theta}(x_i\mid\theta)\,dx_1\dots dx_n \, ,$ для каждого .

θ

$\theta$

После того, как у вас есть доступ к фактическому образцу значений (реализаций) , которые наблюдались в одном прогоне вашего эксперимента, ситуация меняется: больше нет неопределенности в отношении наблюдаемых . Предположим, что случайное значение принимает значения в некотором пространстве параметров . Теперь вы определяете для этих известных (фиксированных) значений функцию помощью Обратите внимание, что , известная как «функция правдоподобия», является функцией $(x_1,\dots,x_n)$ $X_i$ $X_1,\dots,X_n$ $\Theta$ $\Pi$ $(x_1,\dots,x_n)$

L_{x_{1}, \dots, x_{n}} : Π \to R

$L_{x_1,\dots,x_n} : \Pi \to \mathbb{R} \,$

L_{x_{1}, \dots, x_{n}} (θ) = \prod_{i = 1}^{n} f_{X_{i} ∣ Θ} (x_{i} ∣ θ) .

$L_{x_1,\dots,x_n}(\theta)=\prod_{i=1}^n f_{X_i\mid\Theta}(x_i\mid\theta) \, .$

L_{x_{1}, \dots, x_{n}}

$L_{x_1,\dots,x_n}$

θ

$\theta$ . В этой ситуации «после того, как у вас есть данные», вероятность содержит для конкретной рассматриваемой нами условной модели всю информацию о параметре содержащуюся в этом конкретном примере . Фактически, бывает, что является достаточной статистикой для .

L_{x_{1}, \dots, x_{n}}

$L_{x_1,\dots,x_n}$

Θ

$\Theta$

(x_{1}, \dots, x_{n})

$(x_1,\dots,x_n)$

L_{x_{1}, \dots, x_{n}}

$L_{x_1,\dots,x_n}$

Θ

$\Theta$

Отвечая на ваш вопрос, чтобы понять различия между понятиями условной плотности и вероятности, имейте в виду их математические определения (которые явно различны: это разные математические объекты с разными свойствами), а также помните, что условная плотность -прибор "объект / концепция", в то время как вероятность - "после выборки". Я надеюсь, что все это также поможет вам ответить, почему байесовский вывод (используя ваш способ выражения, который я не считаю идеальным) выполняется «с использованием функции правдоподобия, а не условного распределения»: цель байесовского вывода состоит в том, чтобы чтобы вычислить апостериорное распределение, и для этого мы опираемся на наблюдаемые (известные) данные.

Zen
источник

Я думаю, что дзен прав, когда он говорит, что вероятность и условная вероятность различны. В функции правдоподобия θ не является случайной величиной, поэтому она отличается от условной вероятности.

Мартин

Пропорциональность используется для упрощения анализа

Байесовский анализ обычно делается с помощью еще более простого изложения теоремы Байеса, где мы работаем только с точки зрения пропорциональности по отношению к интересующему параметру. Для стандартной модели IID с плотностью выборки мы можем выразить это как: $f(X|\theta)$

p (θ | x) \propto L_{x} (θ) \cdot p (θ) L_{x} (θ) \propto \prod_{i = 1}^{n} f (x_{i} | θ) .

$p(\theta|\mathbf{x}) \propto L_\mathbf{x}(\theta) \cdot p(\theta) \quad \quad \quad \quad L_\mathbf{x}(\theta) \propto \prod_{i=1}^n f(x_i|\theta).$

Это утверждение байесовского обновления работает с точки зрения пропорциональности по отношению к параметру . Он использует два упрощения пропорциональности: одно при использовании функции правдоподобия (пропорциональной плотности выборки) и одно сзади (пропорционально произведению правдоподобия и предшествующего значения). Поскольку апостериор является функцией плотности (в непрерывном случае), тогда нормирующее правило устанавливает мультипликативную константу, необходимую для получения действительной плотности (то есть, чтобы она интегрировалась в единицу). $\theta$

Этот метод использования пропорциональности имеет то преимущество, что позволяет нам игнорировать любые мультипликативные элементы функций, которые не зависят от параметра . Это имеет тенденцию упрощать проблему, позволяя нам смести ненужные части математики и получить более простые утверждения механизма обновления. Это не математическое требование (поскольку правило Байеса работает и в непропорциональной форме), но оно упрощает наш мозг для крошечных животных. $\theta$

Прикладной пример: рассмотрим модель IID с данными наблюдений . Для облегчения нашего анализа мы определяем статистику и , которые являются первыми двумя образцами моментов. Для этой модели у нас есть плотность выборки: $X_1, ..., X_n \sim \text{IID N}(\theta, 1)$ $\bar{x} = \tfrac{1}{n} \sum_{i=1}^n x_i$ $\bar{\bar{x}} = \tfrac{1}{n} \sum_{i=1}^n x_i^2$

\begin{aligned} f (x | θ) = \prod_{i = 1}^{n} f (x_{i} | θ) & = \prod_{i = 1}^{n} N (x_{i} | θ, 1) \\ = \prod_{i = 1}^{n} \frac{1}{\sqrt{2 π}} \exp (- \frac{1}{2} (x_{i} - θ)^{2}) \\ = (2 π)^{n / 2} \exp (- \frac{1}{2} \sum_{i = 1}^{n} (x_{i} - θ)^{2}) . \\ = (2 π)^{n / 2} \exp (- \frac{n}{2} (θ^{2} - 2 \bar{x} θ + \bar{\bar{x}})) \\ = (2 π)^{n / 2} \exp (- \frac{n \bar{\bar{x}}}{2}) \cdot \exp (- \frac{n}{2} (θ^{2} - 2 \bar{x} θ)) \end{aligned}

$\begin{equation} \begin{aligned} f(\mathbf{x}|\theta) = \prod_{i=1}^n f(x_i|\theta) &= \prod_{i=1}^n \text{N}(x_i|\theta,1) \\[6pt] &= \prod_{i=1}^n \frac{1}{\sqrt{2 \pi}} \exp \Big( -\frac{1}{2} (x_i-\theta)^2 \Big) \\[6pt] &= (2 \pi)^{n/2} \exp \Big( -\frac{1}{2} \sum_{i=1}^n (x_i-\theta)^2 \Big). \\[6pt] &= (2 \pi)^{n/2} \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta + \bar{\bar{x}} ) \Big) \\[6pt] &= (2 \pi)^{n/2} \exp \Big( -\frac{n \bar{\bar{x}}}{2} \Big) \cdot \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta ) \Big) \\[6pt] \end{aligned} \end{equation}$

Теперь мы можем напрямую работать с этой плотностью выборки, если захотим. Но обратите внимание, что первые два члена в этой плотности являются мультипликативными константами, которые не зависят от . Раздражает необходимость отслеживать эти термины, поэтому давайте просто избавимся от них, поэтому у нас есть функция правдоподобия: $\theta$

L_{x} (θ) = \exp (- \frac{n}{2} (θ^{2} - 2 \bar{x} θ)) .

$L_\mathbf{x}(\theta) = \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta ) \Big).$

Это немного упрощает ситуацию, так как нам не нужно отслеживать дополнительный термин. Теперь мы можем применить правило Байеса, используя его полную версию уравнения, включая интегральный знаменатель. Но опять же, это требует, чтобы мы отслеживали другую раздражающую мультипликативную константу, которая не зависит от (больше раздражает, потому что мы должны решить интеграл, чтобы получить ее). Итак, давайте просто применим правило Байеса в его пропорциональной форме. Используя сопряженный априорный с некоторым известным параметром точности , мы получаем следующий результат ( заполнив квадрат ): $\theta$ $\theta \sim \text{N}(0,\lambda_0)$ $\lambda_0>0$

\begin{aligned} p (θ | x) & \propto L_{x} (θ) \cdot p (θ) \\ = \exp (- \frac{n}{2} (θ^{2} - 2 \bar{x} θ)) \cdot N (θ | 0, λ_{0}) \\ \propto \exp (- \frac{n}{2} (θ^{2} - 2 \bar{x} θ)) \cdot \exp (- \frac{λ_{0}}{2} θ^{2}) \\ = \exp (- \frac{1}{2} (n θ^{2} - 2 n \bar{x} θ + λ_{0} θ^{2})) \\ = \exp (- \frac{1}{2} ((n + λ_{0}) θ^{2} - 2 n \bar{x} θ)) \\ = \exp (- \frac{n + λ_{0}}{2} (θ^{2} - 2 \frac{n \bar{x}}{n + λ_{0}} θ)) \\ \propto \exp (- \frac{n + λ_{0}}{2} (θ - \frac{n}{n + λ_{0}} \cdot \bar{x})^{2}) \\ \propto N (θ | \frac{n}{n + λ_{0}} \cdot \bar{x}, n + λ_{0}) . \end{aligned}

$\begin{equation} \begin{aligned} p(\theta|\mathbf{x}) &\propto L_\mathbf{x}(\theta) \cdot p(\theta) \\[10pt] &= \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta ) \Big) \cdot \text{N}(\theta|0,\lambda_0) \\[6pt] &\propto \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta ) \Big) \cdot \exp \Big( -\frac{\lambda_0}{2} \theta^2 \Big) \\[6pt] &= \exp \Big( -\frac{1}{2} ( n\theta^2 - 2n\bar{x} \theta + \lambda_0 \theta^2 ) \Big) \\[6pt] &= \exp \Big( -\frac{1}{2} ( (n+\lambda_0) \theta^2 - 2n\bar{x} \theta ) \Big) \\[6pt] &= \exp \Big( -\frac{n+\lambda_0}{2} \Big( \theta^2 - 2 \frac{n\bar{x}}{n+\lambda_0} \theta \Big) \Big) \\[6pt] &\propto \exp \Big( -\frac{n+\lambda_0}{2} \Big( \theta - \frac{n}{n+\lambda_0} \cdot \bar{x} \Big)^2 \Big) \\[6pt] &\propto \text{N}\Big( \theta \Big| \frac{n}{n+\lambda_0} \cdot \bar{x}, n+\lambda_0 \Big). \\[6pt] \end{aligned} \end{equation}$

Итак, из этой работы мы видим, что апостериорное распределение пропорционально нормальной плотности. Поскольку задняя часть должна быть плотной, это означает, что задняя часть является той нормальной плотностью:

p (θ | x) = N (θ | \frac{n}{n + λ_{0}} \cdot \bar{x}, n + λ_{0}) .

$p(\theta|\mathbf{x}) = \text{N}\Big( \theta \Big| \frac{n}{n+\lambda_0} \cdot \bar{x}, n+\lambda_0 \Big).$

Следовательно, мы видим, что апостериорный параметр обычно распределен с апостериорным средним и дисперсией, определяемой как: $\theta$

E (θ | x) = \frac{n}{n + λ_{0}} \cdot \bar{x} V (θ | x) = \frac{1}{n + λ_{0}} .

$\mathbb{E}(\theta|\mathbf{x}) = \frac{n}{n+\lambda_0} \cdot \bar{x} \quad \quad \quad \quad \mathbb{V}(\theta|\mathbf{x}) = \frac{1}{n+\lambda_0}.$

Теперь полученное нами апостериорное распределение имеет константу интегрирования по фронту (которую мы легко можем найти, посмотрев на форму нормального распределения ). Но обратите внимание, что нам не нужно было беспокоиться об этой мультипликативной константе - вся наша работа удаляла (или вводила) мультипликативные константы всякий раз, когда это упрощало математику. Тот же самый результат может быть получен при отслеживании мультипликативных констант, но это намного сложнее.

Бен - Восстановить Монику
источник

Я думаю, что ответ Дзэн действительно говорит вам, как концептуально отличаются функция правдоподобия и общая плотность значений случайных величин. Математически, как функция от x s и θ, они одинаковы, и в этом смысле вероятность можно рассматривать как плотность вероятности. Разница, на которую вы указываете в формуле для апостериорного распределения Байеса, является просто нотационной разницей. Но тонкость разницы хорошо объясняется в ответе дзен. $_i$

Эта проблема возникла в других вопросах, обсуждаемых на этом сайте, относительно функции вероятности. Также другие комментарии Къетила и Дилипа, кажется, подтверждают то, что я говорю.

Майкл Р. Черник
источник