Отношение правдоподобия к фактору Байеса

Я довольно евангелист в отношении использования отношений правдоподобия для представления объективных доказательств за / против данного явления. Однако недавно я узнал, что байесовский фактор выполняет аналогичную функцию в контексте байесовских методов (т.е. субъективный априор объединяется с объективным байесовским фактором для получения объективно обновленного субъективного состояния убеждения). Сейчас я пытаюсь понять вычислительные и философские различия между отношением правдоподобия и байесовским фактором.

На вычислительном уровне я понимаю, что, хотя отношение правдоподобия обычно вычисляется с использованием правдоподобия, представляющего максимальную правдоподобие для соответствующей параметризации каждой модели (либо оцениваемой перекрестной проверкой, либо оштрафованной в соответствии со сложностью модели с использованием AIC), очевидно, что фактор Байеса каким-то образом использует вероятности, которые представляют вероятность каждой модели, интегрированной по всему ее пространству параметров (т.е. не только в MLE). Как обычно достигается эта интеграция? Действительно ли кто-то просто пытается вычислить вероятность для каждой из тысяч (миллионов?) Случайных выборок из пространства параметров, или существуют аналитические методы для интеграции вероятности через пространство параметров? Кроме того, при расчете байесовского фактора,

Кроме того, каковы философские различия между отношением правдоподобия и байесовским фактором (примечание: я не спрашиваю о философских различиях между отношением правдоподобия и байесовскими методами в целом, но байесовский фактор как представление объективных данных конкретно). Как можно охарактеризовать значение байесовского фактора по сравнению с отношением правдоподобия?

likelihood-ratio bayes-factors Майк Лоуренс
источник

Рассматривали ли вы пример в Википедии

Генри

Книга Чена, Шао и Ибрагима (2000) посвящена вычислению Байесовских коэффициентов методом Монте-Карло.

Сиань

Ответы:

очевидно, в байесовском факторе каким-то образом используются вероятности, которые представляют вероятность каждой модели, интегрированной по всему ее пространству параметров (т.е. не только в MLE). Как обычно достигается эта интеграция? Действительно ли кто-то просто пытается вычислить вероятность для каждой из тысяч (миллионов?) Случайных выборок из пространства параметров, или существуют аналитические методы для интеграции вероятности через пространство параметров?

Во-первых, любая ситуация, когда вы рассматриваете такой термин, как для данных и модели , считается моделью вероятности . Это часто является хлебом с маслом любого статистического анализа, частого или байесовского, и именно эта часть, как предполагается, предполагает ваш анализ, является или хорошей, или плохой. Таким образом, байесовские факторы не делают ничего принципиально отличного от отношения правдоподобия. $P(D|M)$ $D$ $M$

Важно поставить байесовские факторы в правильное положение. Скажем, когда у вас есть две модели, и вы переходите от вероятностей к вероятностям, тогда байесовские факторы действуют как оператор на основе предыдущих убеждений:

P o s t e r i o r O d d s = B a y e s F a c t o r * P r i o r O d d s

$Posterior Odds = Bayes Factor * Prior Odds$

\frac{P (M_{1} | D)}{P (M_{2} | D)} = B . F . \times \frac{P (M_{1})}{P (M_{2})}

$\frac{P(M_{1}|D)}{P(M_{2}|D)} = B.F. \times \frac{P(M_{1})}{P(M_{2})}$

Реальная разница заключается в том, что отношения правдоподобия вычисляются дешевле и, как правило, концептуально проще определить. Вероятность в MLE - это просто точечная оценка числителя и знаменателя байесовского коэффициента соответственно. Как и большинство частых конструкций, его можно рассматривать как особый случай байесовского анализа с надуманным априором, к которому трудно добраться. Но в основном это произошло потому, что его можно анализировать и легче вычислить (в эпоху, когда возникли приближенные байесовские вычислительные подходы).

Что касается вычислений, то да: вы будете оценивать различные интегралы правдоподобия в байесовской системе с помощью крупномасштабной процедуры Монте-Карло практически в любом случае, представляющем практический интерес. Существуют некоторые специализированные симуляторы, такие как GHK, которые работают, если вы предполагаете определенные распределения, и если вы делаете эти предположения, иногда вы можете найти аналитически управляемые задачи, для которых существуют полностью аналитические байесовские факторы.

Но никто не использует их; нет причин для Благодаря оптимизированным сэмплерам Метрополиса / Гиббса и другим методам MCMC вполне можно подходить к этим задачам полностью управляемым данными способом и вычислять ваши интегралы численно. Фактически, часто это делается иерархически, и в дальнейшем результаты интегрируются по мета-приорам, которые относятся к механизмам сбора данных, невосполнимым экспериментальным проектам и т. Д.

Я рекомендую книгу « Байесовский анализ данных», чтобы узнать больше об этом. Хотя автор, Эндрю Гельман, кажется, не слишком заботится о байесовских факторах . Кстати, я согласен с Гельманом. Если вы собираетесь перейти на байесовский режим, используйте весь задний план. Делать выбор модели с помощью байесовских методов - это все равно, что препятствовать им, потому что выбор модели - это слабая и в основном бесполезная форма вывода. Я бы предпочел знать распределение по выбору модели, если смогу ... кого волнует квантование до утверждений типа «модель А лучше, чем модель В», когда вам не нужно?

Кроме того, при вычислении байесовского фактора применяется ли поправка на сложность (автоматически с помощью перекрестной проверки оценки вероятности или аналитически с помощью AIC), как это делается с отношением правдоподобия?

Это одна из приятных вещей о байесовских методах. Байесовские факторы автоматически учитывают сложность модели в техническом смысле. Вы можете настроить простой сценарий с двумя моделями, и с предполагаемыми сложностями моделей и соответственно, с и размером выборки. . $M_{1}$ $M_{2}$ $d_{1}$ $d_{2}$ $d_{1} < d_{2}$ $N$

Тогда , если является фактор Байеса с в числителе, в предположении , что верно, можно доказать , что в качестве , подходы со скоростью, которая зависит от разницы в сложности модели, а также от того, что байесовский фактор благоприятствует более простой модели. Более конкретно, вы можете показать, что при всех вышеперечисленных предположениях $B_{1,2}$ $M_{1}$ $M_{1}$ $N\to\infty$ $B_{1,2}$ $\infty$

B_{1, 2} = O (N^{\frac{1}{2} (d_{2} - d_{1})})

$B_{1,2} = \mathcal{O}(N^{\frac{1}{2}(d_{2}-d_{1})})$

Я знаком с этим выводом и обсуждением из книги Сильвии Фрювирт-Шнаттер « Конечная смесь и марковские модели переключения» , но, скорее всего, есть более непосредственные статистические описания, которые больше погружаются в основополагающую эпистемологию.

Я не знаю деталей достаточно хорошо, чтобы дать их здесь, но я полагаю, что есть некоторые довольно глубокие теоретические связи между этим и происхождением AIC. Книга Обложки и Томаса по теории информации, по крайней мере, намекала на это.

Кроме того, каковы философские различия между отношением правдоподобия и байесовским фактором (примечание: я не спрашиваю о философских различиях между отношением правдоподобия и байесовскими методами в целом, но байесовский фактор как представление объективных данных конкретно). Как можно охарактеризовать значение байесовского фактора по сравнению с отношением правдоподобия?

Раздел статьи Wikipedia «Интерпретация» хорошо обсуждает это (особенно диаграмма, показывающая шкалу доказательственной силы Джеффриса).

Как обычно, не так уж много философских вещей, кроме основных различий между байесовскими методами и методами частых (с которыми вы, кажется, уже знакомы).

Главное, что отношение правдоподобия не соответствует голландскому смыслу книги. Вы можете придумать сценарии, в которых логический вывод выбора модели из вероятностных отношений приведет к тому, что вы будете принимать проигрышные ставки. Байесовский метод является последовательным, но работает на основе априора, который может быть чрезвычайно плохим и должен быть выбран субъективно. Компромиссы .. компромиссы ...

FWIW, я думаю, что этот тип сильно параметризованного выбора модели не очень хороший вывод. Я предпочитаю байесовские методы, и я предпочитаю организовывать их более иерархически, и я хочу, чтобы логический вывод сосредоточился на полном апостериорном распределении, если это вообще возможно с вычислительной точки зрения. Я думаю, что у байесовских факторов есть некоторые аккуратные математические свойства, но, как и сам байесовский, я не впечатлен ими. Они скрывают действительно полезную часть байесовского анализа, заключающуюся в том, что он заставляет вас иметь дело с вашими приорами на открытом месте вместо того, чтобы сметать их под ковер, и позволяет делать выводы о полных постерах.

Ely
источник

«Как обычно, есть не так уж много философских вещей, кроме основных различий между байесовскими методами и методами частых (с которыми вы, кажется, уже знакомы). Главное, что тест отношения правдоподобия…» Просто пояснение, я не не намерены сравнивать байесовские факторы с тестами отношения правдоподобия , но с отношениями правдоподобия сами по себе, без багажа для проверки часто встречающихся гипотез.

Майк Лоуренс

В соответствии с моим пояснением выше: Поэтому мне кажется, что большая разница между BF и LR состоит в том, что, как вы говорите, первый автоматически корректирует сложность, но требует большого количества вычислений, в то время как последний требует гораздо меньшего количества вычислений, но требует явного исправления для сложности модели (с использованием AIC, который является быстрым в вычислительном отношении, или перекрестной проверки, который является довольно более дорогим в вычислительном отношении).

Майк Лоуренс

Извините, тест отношения правдоподобия был опечаткой, должен был быть только отношение правдоподобия. Я думаю, что вы в основном правы, но вам все еще не хватает общей картины, согласно которой отношение правдоподобия является лишь точечной оценкой. Это будет полезно только в том случае, если лежащие в основе распределения вероятностей будут вести себя хорошо, вплоть до квадратичного приближения в окрестности MLE. Байесовским факторам не нужно заботиться об асимптотических свойствах распределения, подобных этому, поэтому он является более общим. Он включает в себя вывод выбора модели на основе MLE.

Илай

Другими словами, MLE можно рассматривать как максимальный апостериорный оценщик (MAP), просто с неправильным априором (когда интеграция позволяет это сделать), а MAP является более убедительной точечной оценкой, поскольку она включает в себя априорную информацию. Теперь, вместо того, чтобы просто выбирать режим апостериорного ... почему бы не объединить все значения апостериорного в соответствии с их предыдущей вероятностью? Это не даст вам точную оценку параметров, но чаще всего люди не хотят получать точную оценку. Распределения по параметрам всегда более полезны, чем точечные оценки, когда вы можете себе позволить их получить

2012 г.,

Чтобы понять разницу между отношениями правдоподобия и байесовскими факторами, полезно рассмотреть одну ключевую особенность байесовских факторов более подробно:

Как байесовским факторам удается автоматически учитывать сложность базовых моделей?

Одним из аспектов этого вопроса является рассмотрение методов детерминированного приближенного вывода. Вариационный байесовский метод является одним из таких методов. Это может не только значительно снизить вычислительную сложность стохастических приближений (например, выборка MCMC). Вариационный байесовский метод также обеспечивает интуитивное понимание того, что составляет байесовский фактор.

Напомним сначала, что байесовский фактор основан на модельных свидетельствах двух конкурирующих моделей,

\begin{aligned} B F_{1, 2} = \frac{p (data ∣ M_{1})}{p (data ∣ M_{2})}, \end{aligned}

$\begin{align} BF_{1,2} = \frac{p(\textrm{data} \mid M_1)}{p(\textrm{data} \mid M_2)}, \end{align}$

где отдельные модельные свидетельства должны были бы быть вычислены сложным интегралом:

\begin{aligned} p (data ∣ M_{i}) = \int p (data ∣ θ, M_{i}) p (θ ∣ M_{i}) d θ \end{aligned}

$\begin{align} p(\textrm{data} \mid M_i) = \int p(\textrm{data} \mid \theta,M_i ) \ p(\theta \mid M_i) \ \textrm{d}\theta \end{align}$

Этот интеграл необходим не только для вычисления байесовского фактора; это также необходимо для определения самих параметров, т. е. при вычислении . $p(\theta \mid \textrm{data}, M_i)$

Вариационный байесовский подход с фиксированной формой решает эту проблему, делая распределенное предположение об условных потомках (например, гауссово предположение). Это превращает сложную задачу интеграции в гораздо более простую задачу оптимизации: проблему нахождения моментов приближенной плотности , максимально похожих на истинные, но неизвестные апостериорные . $q(\theta)$ $p(\theta \mid \textrm{data},M_i)$

Вариационное исчисление говорит нам, что это может быть достигнуто путем максимизации так называемой отрицательной свободной энергии , которая напрямую связана с доказательством лог-модели: $\mathcal{F}$

\begin{aligned} F = log p (data ∣ M_{i}) - KL [q (θ) | | p (θ ∣ data, M_{i})] \end{aligned}

$\begin{align} \mathcal{F} = \textrm{log} \; p(\textrm{data} \mid M_i) - \textrm{KL}\left[q(\theta) \; || \; p(\theta \mid \textrm{data},M_i) \right] \end{align}$

Отсюда видно, что максимизация отрицательной свободной энергии не только дает нам приблизительный апостериорный . Поскольку дивергенция Кульбака-Лейблера неотрицательна, также обеспечивает нижнюю границу для самого доказательства (log) модели . $q(\theta) \approx p(\theta \mid \textrm{data},M_i)$ $\mathcal{F}$

Теперь мы можем вернуться к первоначальному вопросу о том, как байесовский фактор автоматически уравновешивает правильность соответствия и сложность задействованных моделей. Оказывается, что отрицательная свободная энергия может быть переписана следующим образом:

\begin{aligned} F = {⟨ p (data ∣ θ, M_{i}) ⟩}_{q} - KL [q (θ) | | p (θ ∣ M_{i})] \end{aligned}

$\begin{align} \mathcal{F} = \left\langle p(\textrm{data} \mid \theta,M_i) \right\rangle_q - \textrm{KL}\left[ q(\theta) \; || \; p(\theta \mid M_i) \right] \end{align}$

Первый член - логарифмическая вероятность данных, ожидаемых под приблизительным задним числом; это представляет добротность соответствия (или точность ) модели. Второе слагаемое - это расхождение KL между приблизительным задним и предыдущим; она представляет сложность модели с точки зрения того, что более простая модель является той, которая более соответствует нашим предыдущим представлениям, или с точки зрения того, что более простую модель не нужно слишком сильно растягивать для размещения данных.

Приближение свободной энергии к доказательству лог-модели показывает, что доказательство модели включает компромисс между моделированием данных (т. Е. Достоверностью соответствия) и сохранением соответствия нашему предшествующему (т. Е. Простотой или отрицательной сложностью).

Таким образом, байесовский фактор (в отличие от отношения правдоподобия) говорит о том, какая из двух конкурирующих моделей лучше в предоставлении простого, но точного объяснения данных.

Кей Бродерсен
источник