Становятся ли байесовские априорные значения несущественными при большом размере выборки?

26

Выполняя байесовский вывод, мы действуем путем максимизации нашей функции правдоподобия в сочетании с имеющимися у нас априорами в отношении параметров. Поскольку логарифмическая правдоподобность более удобна, мы эффективно максимизируем используя MCMC или другим способом, который генерирует апостериорные распределения (используя pdf для каждый параметр предшествует и вероятность каждой точки данных). $\sum \ln (\text{prior}) + \sum \ln (\text{likelihood})$

Если у нас много данных, то вероятность того, что они превзойдут любую информацию, предоставленную предыдущим, простой математикой. В конечном счете, это хорошо и по замыслу; мы знаем, что апостериорные значения будут сходиться только к вероятности с большим количеством данных, потому что это должно быть.

Для задач, определенных сопряженными априорными данными, это даже точно доказуемо.

Есть ли способ решить, когда априорные значения не имеют значения для данной функции вероятности и некоторого размера выборки?

bayesian prior пикселей
источник

3

Ваше первое предложение не правильно. Байесовский вывод и алгоритм MCMC не максимизируют вероятность.

niandra82

5

Вы знакомы с предельной вероятностью, байесовскими факторами, предварительным / задним предиктивным распределением, предыдущим / задним прогностическим контролем? Это тот тип вещей, который вы бы использовали для сравнения моделей в байесовской парадигме. Я думаю, что этот вопрос сводится к тому, сойдет ли фактор Байеса между моделями, которые различаются только по своим предшественникам, к 1, поскольку размер выборки стремится к бесконечности. Вы также можете отложить в сторону априорные значения, которые усекаются в пространстве параметров, подразумеваемом вероятностью, поскольку это может лишить цель возможности сходиться к оценке максимального правдоподобия.

Захари Блюменфельд

@ZacharyBlumenfeld: это может рассматриваться как правильный ответ!

Сиань

Является ли исправленная форма «максимизирующим правилом Байеса»? Кроме того, модели, с которыми я работаю, физически основаны, поэтому для работы необходимы усеченные пространства параметров. (Я также согласен с тем, что ваши комментарии, вероятно, являются ответом, не могли бы вы уточнить их @ZacharyBlumenfeld?)

пикс.

37

Это не так просто. Информация в ваших данных переполняет предшествующую информацию, причем не только размер вашей выборки велик, но и когда ваши данные предоставляют достаточно информации, чтобы превзойти предыдущую информацию. Неинформативные приоритеты легко убедить данными, в то время как сильно информативные могут быть более устойчивыми. В крайнем случае, с плохо определенными априорами, ваши данные могут вообще не быть в состоянии преодолеть это (например, нулевая плотность по некоторому региону).

Напомним, что по теореме Байеса мы используем два источника информации в нашей статистической модели: отсутствующие данные, предварительная информация и информация, передаваемая данными в функции вероятности :

posterior \propto prior \times вероятность

$\color{violet}{\text{posterior}} \propto \color{red}{\text{prior}} \times \color{lightblue}{\text{likelihood}}$

При использовании неинформативного предварительного (или максимального правдоподобия) мы стараемся внести в нашу модель минимально возможную предварительную информацию. Благодаря информативным априорам мы вносим существенный объем информации в модель. Таким образом, как данные, так и предыдущие, сообщают нам, какие значения оценочных параметров являются более правдоподобными или правдоподобными. Они могут приносить различную информацию, и в некоторых случаях каждый из них может обойти другого.

Позвольте мне проиллюстрировать это очень простой бета-биномиальной моделью ( подробный пример приведен здесь ). С «неинформативным» предыдущим , достаточно небольшой выборки, чтобы ее преодолеть. На графиках ниже вы можете увидеть арисы (красная кривая), вероятность (синяя кривая) и постеры (фиолетовая кривая) одной и той же модели с разными размерами выборки.

С другой стороны, у вас может быть информационный априор, близкий к истинному значению, который также будет легко, но не так легко, как с еженедельным информативным, убедить данными.

Случай с информативным априором сильно отличается, когда он далек от того, что говорят данные (используя те же данные, что и в первом примере). В таком случае вам нужно больше образца, чтобы преодолеть предшествующее.

Таким образом, речь идет не только о размере выборки, но и о том, какие у вас данные и какие у вас данные. Обратите внимание, что это желаемое поведение, потому что при использовании информативных априоров мы хотим включить в нашу модель информацию об отсутствии данных, и это было бы невозможно, если бы большие выборки всегда отбрасывали априоры.

Из-за сложных отношений апостериорных вероятностно-приоритетных всегда полезно взглянуть на апостериорное распределение и сделать некоторые апостериорные прогностические проверки (Gelman, Meng and Stern, 1996; Gelman and Hill, 2006; Gelman et al, 2004). Более того, как описано Spiegelhalter (2004), вы можете использовать разные априоры, например, «пессимистичные», которые выражают сомнения относительно больших эффектов, или «восторженные», которые с оптимизмом смотрят на предполагаемые эффекты. Сравнение того, как различные априорные поведения ведут себя с вашими данными, может помочь неофициально оценить степень влияния апостериорного на предыдущую.

Шпигельхальтер, DJ (2004). Включение байесовских идей в оценку здравоохранения. Статистическая наука, 156-174.

Гельман А., Карлин Дж. Б., Стерн Х.С. и Рубин Д.Б. (2004). Байесовский анализ данных. Чепмен и Холл / CRC.

Gelman, A. and Hill, J. (2006). Анализ данных с использованием регрессионных и многоуровневых / иерархических моделей. Издательство Кембриджского университета.

Gelman A., Meng XL и Stern H. (1996). Задняя прогнозная оценка пригодности модели через выявленные расхождения. Statistica sinica, 733-760.

Тим
источник

2

Хороший вклад, спасибо Тим. Я хотел бы добавить, что контраст, который вы так хорошо здесь изложили, может проявляться даже в рамках одной и той же модели, что связано с различными параметрами этой модели. Могут быть некоторые параметры, о которых данные предоставляют незначительную информацию, и в этом случае априорные значения могут служить критически важными для обеспечения идентифицирующих ограничений .

Дэвид С. Норрис,

В первой матрице графиков 3х3 графики верны? Задняя часть полностью плоская до и включительно n = 25?

Мичиган-

1

@MichiganWater каждая коллекция из 9 графиков использует один и тот же масштаб для оси y, чтобы самые большие значения не выходили за пределы экрана. Таким образом, они плоские относительно случая, когда у вас есть больше данных. Если вы увеличите масштаб, они не будут плоскими.

Тим

11

Выполняя байесовский вывод, мы действуем путем максимизации нашей функции правдоподобия в сочетании с имеющимися у нас априорами в отношении параметров.

Это на самом деле не то, что большинство практикующих считают байесовским умозаключением. Таким способом можно оценить параметры, но я бы не назвал это байесовским выводом.

Байесовский вывод использует апостериорные распределения для вычисления апостериорных вероятностей (или отношений вероятностей) для конкурирующих гипотез.

Задние распределения могут быть оценены эмпирически с помощью методов Монте-Карло или Марков-Цепи Монте-Карло (MCMC).

Отложив эти различия в сторону, вопрос

Становятся ли байесовские априорные значения несущественными при большом размере выборки?

все еще зависит от контекста проблемы и того, что вас волнует.

Если вас беспокоит предсказание на основе уже очень большой выборки, тогда ответ, как правило, положительный, априорные значения асимптотически не имеют значения *. Однако, если вас волнует выбор модели и тестирование байесовской гипотезы, то ответ - нет, априорные значения имеют большое значение, и их влияние не ухудшится с размером выборки.

* Здесь я предполагаю, что априоры не усечены / не подвергнуты цензуре за пределами пространства параметров, подразумеваемого вероятностью, и что они не настолько плохо определены, чтобы вызвать проблемы сходимости с почти нулевой плотностью в важных регионах. Мой аргумент также асимптотичен, что сопровождает все обычные предостережения.

Прогнозируемая плотность

$\mathbf{d}_N = (d_1, d_2,...,d_N)$ $d_i$ $f(\mathbf{d}_N\mid \theta)$ $\theta$

$\pi_0 (\theta \mid \lambda_1)$ $\pi_0 (\theta \mid \lambda_2)$ $\lambda_1 \neq \lambda_2$

π_{N} (θ ∣ d_{N}, λ_{j}) \propto f (d_{N} ∣ θ) π_{0} (θ ∣ λ_{j}) f o r j = 1, 2

$\pi_N (\theta \mid \mathbf{d}_N, \lambda_j) \propto f(\mathbf{d}_N\mid \theta)\pi_0 ( \theta \mid \lambda_j)\;\;\;\;\;\mathrm{for}\;\;j=1,2$

$\theta^*$ $\theta^{j}_N \sim \pi_N(\theta\mid \mathbf{d}_N, \lambda_j)$ $\hat \theta_N = \max_\theta\{ f(\mathbf{d}_N\mid \theta) \}$ $\theta^{1}_N$ $\theta^{2}_N$ $\hat \theta_N$ $\theta^*$ $\varepsilon >0$

\begin{aligned} lim_{N \to \infty} P r (| θ_{N}^{j} - θ^{*} | \geq ε) & = 0 \forall j \in {1, 2} \\ lim_{N \to \infty} P r (| {\hat{θ}}_{N} - θ^{*} | \geq ε) & = 0 \end{aligned}

$\begin{align} \lim_{N \rightarrow \infty} Pr(|\theta^j_N - \theta^*| \ge \varepsilon) &= 0\;\;\;\forall j \in \{1,2\} \\ \lim_{N \rightarrow \infty} Pr(|\hat \theta_N - \theta^*| \ge \varepsilon) &= 0 \end{align}$

$\theta^j_N = \max_\theta \{\pi_N (\theta \mid \mathbf{d}_N, \lambda_j)\}$

$f(\tilde d \mid \mathbf{d}_N, \lambda_j) = \int_{\Theta} f(\tilde d \mid \theta,\lambda_j,\mathbf{d}_N)\pi_N (\theta \mid \lambda_j,\mathbf{d}_N)d\theta$ $f(\tilde d \mid \mathbf{d}_N, \theta^j_N)$ $f(\tilde d\mid \mathbf{d}_N, \theta^*)$

Выбор модели и проверка гипотез

Если кто-то заинтересован в выборе байесовской модели и проверке гипотез, он должен знать, что эффект предшествующего не исчезает асимптотически.

$f(\mathbf{d}_N \mid \mathrm{model})$

K_{N} = \frac{f (d_{N} ∣ {m o d e l}_{1})}{f (d_{N} ∣ {m o d e l}_{2})}

$K_N = \frac{f(\mathbf{d}_N \mid \mathrm{model}_1)}{f(\mathbf{d}_N \mid \mathrm{model}_2)}$

P r ({m o d e l}_{j} ∣ d_{N}) = \frac{f (d_{N} ∣ {m o d e l}_{j}) P r ({m o d e l}_{j})}{\sum_{l = 1}^{L} f (d_{N} ∣ {m o d e l}_{l}) P r ({m o d e l}_{l})}

$Pr(\mathrm{model}_j \mid \mathbf{d}_N) = \frac{f(\mathbf{d}_N \mid \mathrm{model}_j)Pr(\mathrm{model}_j)}{\sum_{l=1}^L f(\mathbf{d}_N \mid \mathrm{model}_l)Pr(\mathrm{model}_l)}$

f (d_{N} ∣ λ_{j}) = \int_{Θ} f (d_{N} ∣ θ, λ_{j}) π_{0} (θ ∣ λ_{j}) d θ

$f(\mathbf{d}_N \mid \lambda_j) = \int_{\Theta} f(\mathbf{d}_N \mid \theta, \lambda_j)\pi_0(\theta\mid \lambda_j)d\theta$

Однако мы можем также подумать о последовательном добавлении наблюдений в нашу выборку и записать предельную вероятность в виде цепочки прогнозирующих вероятностей ;

f (d_{N} ∣ λ_{j}) = \prod_{n = 0}^{N - 1} f (d_{n + 1} ∣ d_{n}, λ_{j})

$f(\mathbf{d}_N \mid \lambda_j) = \prod_{n=0}^{N-1} f(d_{n+1} \mid \mathbf{d}_n , \lambda_j)$

f (d_{N + 1} ∣ d_{N}, λ_{j})

$f(d_{N+1} \mid \mathbf{d}_N , \lambda_j)$

f (d_{N + 1} ∣ d_{N}, θ^{*})

$f(d_{N+1} \mid \mathbf{d}_N , \theta^*)$ , но обычно это не так $f(\mathbf{d}_N \mid \lambda_1)$ сходится к $f(\mathbf{d}_N \mid \theta^*)$ и не сходится к $f(\mathbf{d}_N \mid \lambda_2)$ , Это должно быть очевидно, учитывая обозначение продукта выше. В то время как последние термины в продукте будут становиться все более похожими, начальные термины будут другими, поэтому фактор Байеса

\frac{е (d_{N} | λ_{1})}{е (d_{N} | λ_{2})} ⧸ \overset{п}{\to} 1

$\frac{f(\mathbf{d}_N \mid \lambda_1)}{ f(\mathbf{d}_N \mid \lambda_2)} \not\stackrel{p}{\rightarrow} 1$ Это проблема, если мы хотим вычислить байесовский фактор для альтернативной модели с различной вероятностью и ранее. Например, рассмотрим предельную вероятность

h (d_{N} ∣ M) = \int_{Θ} h (d_{N} ∣ θ, M) π_{0} (θ ∣ M) d θ

$h(\mathbf{d}_N\mid M) = \int_{\Theta} h(\mathbf{d}_N\mid \theta, M)\pi_0(\theta\mid M) d\theta$ ; тогда

\frac{е (d_{N} | λ_{1})}{час (d_{N} | M)} \neq \frac{е (d_{N} | λ_{2})}{час (d_{N} | M)}

$\frac{f(\mathbf{d}_N \mid \lambda_1)}{ h(\mathbf{d}_N\mid M)} \neq \frac{f(\mathbf{d}_N \mid \lambda_2)}{ h(\mathbf{d}_N\mid M)}$ асимптотически или иначе. То же самое можно показать для апостериорных вероятностей. В этой настройке выбор предшествующего значения существенно влияет на результаты вывода независимо от размера выборки.

Захари Блюменфельд
источник

5

Еще одна проблема, о которой следует помнить, это то, что у вас может быть много данных , но при этом очень мало информации об определенных параметрах в вашей модели. В таких случаях даже слегка информативный априор может быть чрезвычайно полезным при выполнении логического вывода.

В качестве глупого примера, предположим, что вы сравнивали средние значения для двух групп, и у вас было 1 000 000 выборок из группы 1 и 10 выборок из группы 2. Тогда четкое наличие информативного априорного представления о группе 2 может улучшить выводы, даже если вы собрали более миллиона образцы.

И хотя этот пример может быть тривиальным, он начинает приводить к некоторым очень важным последствиям. Если мы хотим понять некоторые сложные явления, разумнее всего собрать много информации, касающейся частей, которые мы не понимаем, и меньше информации о частях, которые мы понимаем. Если мы собираем много данных таким образом, отбрасывание предыдущего, потому что у нас много данных, является действительно плохим выбором; мы просто отложили наш анализ, потому что мы не тратили время на сбор данных о вещах, которые мы уже знаем!

Клифф AB
источник

Становятся ли байесовские априорные значения несущественными при большом размере выборки?

Ответы:

Прогнозируемая плотность

Выбор модели и проверка гипотез