Я довольно евангелист в отношении использования отношений правдоподобия для представления объективных доказательств за / против данного явления. Однако недавно я узнал, что байесовский фактор выполняет аналогичную функцию в контексте байесовских методов (т.е. субъективный априор объединяется с объективным байесовским фактором для получения объективно обновленного субъективного состояния убеждения). Сейчас я пытаюсь понять вычислительные и философские различия между отношением правдоподобия и байесовским фактором.
На вычислительном уровне я понимаю, что, хотя отношение правдоподобия обычно вычисляется с использованием правдоподобия, представляющего максимальную правдоподобие для соответствующей параметризации каждой модели (либо оцениваемой перекрестной проверкой, либо оштрафованной в соответствии со сложностью модели с использованием AIC), очевидно, что фактор Байеса каким-то образом использует вероятности, которые представляют вероятность каждой модели, интегрированной по всему ее пространству параметров (т.е. не только в MLE). Как обычно достигается эта интеграция? Действительно ли кто-то просто пытается вычислить вероятность для каждой из тысяч (миллионов?) Случайных выборок из пространства параметров, или существуют аналитические методы для интеграции вероятности через пространство параметров? Кроме того, при расчете байесовского фактора,
Кроме того, каковы философские различия между отношением правдоподобия и байесовским фактором (примечание: я не спрашиваю о философских различиях между отношением правдоподобия и байесовскими методами в целом, но байесовский фактор как представление объективных данных конкретно). Как можно охарактеризовать значение байесовского фактора по сравнению с отношением правдоподобия?
источник
Ответы:
Во-первых, любая ситуация, когда вы рассматриваете такой термин, как для данных и модели , считается моделью вероятности . Это часто является хлебом с маслом любого статистического анализа, частого или байесовского, и именно эта часть, как предполагается, предполагает ваш анализ, является или хорошей, или плохой. Таким образом, байесовские факторы не делают ничего принципиально отличного от отношения правдоподобия.P(D|M) D M
Важно поставить байесовские факторы в правильное положение. Скажем, когда у вас есть две модели, и вы переходите от вероятностей к вероятностям, тогда байесовские факторы действуют как оператор на основе предыдущих убеждений:
Реальная разница заключается в том, что отношения правдоподобия вычисляются дешевле и, как правило, концептуально проще определить. Вероятность в MLE - это просто точечная оценка числителя и знаменателя байесовского коэффициента соответственно. Как и большинство частых конструкций, его можно рассматривать как особый случай байесовского анализа с надуманным априором, к которому трудно добраться. Но в основном это произошло потому, что его можно анализировать и легче вычислить (в эпоху, когда возникли приближенные байесовские вычислительные подходы).
Что касается вычислений, то да: вы будете оценивать различные интегралы правдоподобия в байесовской системе с помощью крупномасштабной процедуры Монте-Карло практически в любом случае, представляющем практический интерес. Существуют некоторые специализированные симуляторы, такие как GHK, которые работают, если вы предполагаете определенные распределения, и если вы делаете эти предположения, иногда вы можете найти аналитически управляемые задачи, для которых существуют полностью аналитические байесовские факторы.
Но никто не использует их; нет причин для Благодаря оптимизированным сэмплерам Метрополиса / Гиббса и другим методам MCMC вполне можно подходить к этим задачам полностью управляемым данными способом и вычислять ваши интегралы численно. Фактически, часто это делается иерархически, и в дальнейшем результаты интегрируются по мета-приорам, которые относятся к механизмам сбора данных, невосполнимым экспериментальным проектам и т. Д.
Я рекомендую книгу « Байесовский анализ данных», чтобы узнать больше об этом. Хотя автор, Эндрю Гельман, кажется, не слишком заботится о байесовских факторах . Кстати, я согласен с Гельманом. Если вы собираетесь перейти на байесовский режим, используйте весь задний план. Делать выбор модели с помощью байесовских методов - это все равно, что препятствовать им, потому что выбор модели - это слабая и в основном бесполезная форма вывода. Я бы предпочел знать распределение по выбору модели, если смогу ... кого волнует квантование до утверждений типа «модель А лучше, чем модель В», когда вам не нужно?
Это одна из приятных вещей о байесовских методах. Байесовские факторы автоматически учитывают сложность модели в техническом смысле. Вы можете настроить простой сценарий с двумя моделями, и с предполагаемыми сложностями моделей и соответственно, с и размером выборки. .M1 M2 d1 d2 d1<d2 N
Тогда , если является фактор Байеса с в числителе, в предположении , что верно, можно доказать , что в качестве , подходы со скоростью, которая зависит от разницы в сложности модели, а также от того, что байесовский фактор благоприятствует более простой модели. Более конкретно, вы можете показать, что при всех вышеперечисленных предположенияхB1,2 M1 M1 N→∞ B1,2 ∞
Я знаком с этим выводом и обсуждением из книги Сильвии Фрювирт-Шнаттер « Конечная смесь и марковские модели переключения» , но, скорее всего, есть более непосредственные статистические описания, которые больше погружаются в основополагающую эпистемологию.
Я не знаю деталей достаточно хорошо, чтобы дать их здесь, но я полагаю, что есть некоторые довольно глубокие теоретические связи между этим и происхождением AIC. Книга Обложки и Томаса по теории информации, по крайней мере, намекала на это.
Раздел статьи Wikipedia «Интерпретация» хорошо обсуждает это (особенно диаграмма, показывающая шкалу доказательственной силы Джеффриса).
Как обычно, не так уж много философских вещей, кроме основных различий между байесовскими методами и методами частых (с которыми вы, кажется, уже знакомы).
Главное, что отношение правдоподобия не соответствует голландскому смыслу книги. Вы можете придумать сценарии, в которых логический вывод выбора модели из вероятностных отношений приведет к тому, что вы будете принимать проигрышные ставки. Байесовский метод является последовательным, но работает на основе априора, который может быть чрезвычайно плохим и должен быть выбран субъективно. Компромиссы .. компромиссы ...
FWIW, я думаю, что этот тип сильно параметризованного выбора модели не очень хороший вывод. Я предпочитаю байесовские методы, и я предпочитаю организовывать их более иерархически, и я хочу, чтобы логический вывод сосредоточился на полном апостериорном распределении, если это вообще возможно с вычислительной точки зрения. Я думаю, что у байесовских факторов есть некоторые аккуратные математические свойства, но, как и сам байесовский, я не впечатлен ими. Они скрывают действительно полезную часть байесовского анализа, заключающуюся в том, что он заставляет вас иметь дело с вашими приорами на открытом месте вместо того, чтобы сметать их под ковер, и позволяет делать выводы о полных постерах.
источник
Чтобы понять разницу между отношениями правдоподобия и байесовскими факторами, полезно рассмотреть одну ключевую особенность байесовских факторов более подробно:
Как байесовским факторам удается автоматически учитывать сложность базовых моделей?
Одним из аспектов этого вопроса является рассмотрение методов детерминированного приближенного вывода. Вариационный байесовский метод является одним из таких методов. Это может не только значительно снизить вычислительную сложность стохастических приближений (например, выборка MCMC). Вариационный байесовский метод также обеспечивает интуитивное понимание того, что составляет байесовский фактор.
Напомним сначала, что байесовский фактор основан на модельных свидетельствах двух конкурирующих моделей,
где отдельные модельные свидетельства должны были бы быть вычислены сложным интегралом:
Этот интеграл необходим не только для вычисления байесовского фактора; это также необходимо для определения самих параметров, т. е. при вычислении .p(θ∣data,Mi)
Вариационный байесовский подход с фиксированной формой решает эту проблему, делая распределенное предположение об условных потомках (например, гауссово предположение). Это превращает сложную задачу интеграции в гораздо более простую задачу оптимизации: проблему нахождения моментов приближенной плотности , максимально похожих на истинные, но неизвестные апостериорные .q(θ) p(θ∣data,Mi)
Вариационное исчисление говорит нам, что это может быть достигнуто путем максимизации так называемой отрицательной свободной энергии , которая напрямую связана с доказательством лог-модели:F
Отсюда видно, что максимизация отрицательной свободной энергии не только дает нам приблизительный апостериорный . Поскольку дивергенция Кульбака-Лейблера неотрицательна, также обеспечивает нижнюю границу для самого доказательства (log) модели .q(θ)≈p(θ∣data,Mi) F
Теперь мы можем вернуться к первоначальному вопросу о том, как байесовский фактор автоматически уравновешивает правильность соответствия и сложность задействованных моделей. Оказывается, что отрицательная свободная энергия может быть переписана следующим образом:
Первый член - логарифмическая вероятность данных, ожидаемых под приблизительным задним числом; это представляет добротность соответствия (или точность ) модели. Второе слагаемое - это расхождение KL между приблизительным задним и предыдущим; она представляет сложность модели с точки зрения того, что более простая модель является той, которая более соответствует нашим предыдущим представлениям, или с точки зрения того, что более простую модель не нужно слишком сильно растягивать для размещения данных.
Приближение свободной энергии к доказательству лог-модели показывает, что доказательство модели включает компромисс между моделированием данных (т. Е. Достоверностью соответствия) и сохранением соответствия нашему предшествующему (т. Е. Простотой или отрицательной сложностью).
Таким образом, байесовский фактор (в отличие от отношения правдоподобия) говорит о том, какая из двух конкурирующих моделей лучше в предоставлении простого, но точного объяснения данных.
источник