Выборка из неправильного распределения (с использованием MCMC и других)

15

Мой основной вопрос: как бы вы пробовали неправильный дистрибутив? Имеет ли смысл пробовать неправильный дистрибутив?

Здесь комментарии Сианя как бы касаются вопроса, но я искал некоторые подробности по этому поводу.

Более конкретно для MCMC:

Говоря о MCMC и читая статьи, авторы подчеркивают, что получили правильные апостериорные распределения. Есть знаменитая газета Geyer (1992), в которой автор забыл проверить правильность их апостериорных (в противном случае это отличная статья).

Но предположим, что у нас есть вероятность и неправильное априорное распределение на θ , так что результирующий апостериор также неправильный, и MCMC используется для выборки из распределения. В этом случае, что указывает образец? Есть ли в этом образце полезная информация? Мне известно, что цепь Маркова здесь является либо временной, либо нуль-рекуррентной. Есть ли какие-нибудь положительные результаты, если они не повторяются ?f(x|θ)θ

Наконец, в ответе Нила Джи здесь он упоминает

Вы можете обычно пробовать (используя MCMC) сзади, даже если это неправильно.

Он упоминает, что такая выборка распространена в глубоком обучении. Если это правда, как это имеет смысл?

Greenparker
источник
1
Этот jstor.org/stable/pdf/2246228.pdf?_=1462943547901 может быть интересным
peuhp
@peuhp Определенно полезно. Что я понимаю из статьи, так это то, что если оцениваемые функционалы из выборок интегрируемы, то выборка из неправильного апостериорного имеет смысл. Правильна ли моя интерпретация?
Greenparker
3
Да. Рассмотрим тривиальный случай несобственного апостериора, когда некорректность обусловлена ​​толстыми хвостами, и функция, равная нулю вне и обладающая всеми хорошими свойствами интегрируемости по [ 0 , 1 ] . Тот факт, что апостериор неправильный, не имеет значения, поскольку единственная часть апостериора, которая имеет значение, это часть над [ 0 , 1 ] . [0,1][0,1][0,1]
jbowman

Ответы:

10

Выборка из неправильного апостериорного (плотности) не имеет смысла с вероятностной / теоретической точки зрения. Причина этого заключается в том, что функция f не имеет конечного интеграла по пространству параметров и, следовательно, не может быть связана с вероятностной моделью ( Ω , σ , P ) (пространство, сигма-алгебра, вероятностная мера) ).ее(Ω,σ,п)

Если у вас есть модель с неправильным априорным положением, которое приводит к неправильному заднему, во многих случаях вы все еще можете взять образец из нее, используя MCMC, например, Metropolis-Hastings, и «задние образцы» могут выглядеть разумно. Это выглядит интригующе и парадоксально на первый взгляд. Однако причина этого заключается в том, что методы MCMC на практике ограничены числовыми ограничениями компьютеров, и, следовательно, все опоры ограничены (и дискретны!) Для компьютера. Затем, при этих ограничениях (ограниченность и дискретность) апостериор в большинстве случаев является правильным.

Существует замечательная ссылка Хоберта и Казеллы, которая представляет пример (немного другой природы), где вы можете построить сэмплер Гиббса для апостериорного, задние сэмплы выглядят совершенно разумными, но апостериорный является неподходящим!

http://www.jstor.org/stable/2291572

Подобный пример недавно появился здесь . На самом деле, Хоберт и Казелла предупреждают читателя, что методы MCMC нельзя использовать для выявления неправильности апостериорной системы, и что это необходимо проверять отдельно, прежде чем применять какие-либо методы MCMC. В итоге:

  1. Некоторые сэмплеры MCMC, такие как Metropolis-Hastings, могут (но не должны) использоваться для сэмплирования с неправильной апостериорной точки, поскольку компьютер ограничивает и определяет пространство параметров. Только если у вас есть огромные образцы, вы можете быть в состоянии наблюдать некоторые странные вещи. Насколько хорошо вы можете обнаружить эти проблемы, также зависит от «инструментального» распределения, используемого в вашем сэмплере. Последний пункт требует более обстоятельного обсуждения, поэтому я предпочитаю оставить его здесь.
  2. (Хоберт и Казелла). Тот факт, что вы можете построить сэмплер Гиббса (условная модель) для модели с неподходящим предшествованием, не означает, что апостериорный (модель соединения) является правильным.
  3. Формальная вероятностная интерпретация задних образцов требует правильности задних. Результаты и доказательства сходимости устанавливаются только для правильных распределений / мер вероятности.

PS (немного языком в щеку): Не всегда верьте тому, что люди делают в машинном обучении. Профессор Брайан Рипли сказал: «Машинное обучение - это статистика без всякой проверки моделей и предположений».

прут
источник
(+1) Отличный ответ, и он согласен с большей частью того, о чем я думал. Я прочитаю ссылку Хоберт + Казелла. Вы случайно не знаете, что может произойти что-то лучшее, если цепь Маркова является нуль-рекуррентной? Также согласен с замечанием PS.
Greenparker
@Greenparker Нулевые рекуррентные цепи Маркова не имеют стационарного распределения. Тогда они бесполезны в контексте MCMC (где вы строите цепи Маркова со стационарным распределением, равным целевому распределению), см., Например, здесь и здесь .
Род
5

Предоставление альтернативного, более прикладного, взгляда из превосходного ответа Рода выше -

+/-10100

1/Икспредыдущий - один, который я использую для расчета, который не имеет верхней границы, и его «дополнительная функция», где он равен нулю над населением Сан-Франциско ... », причем« дополнительная функция »применяется в шаг после генерации образца. Реальный приоритет не тот, который используется в вычислениях MCMC (в моем примере.)

Так что в принципе я был бы вполне согласен с использованием сгенерированной MCMC выборки из ненадлежащего распределения в прикладной работе, но я бы уделил много внимания тому, как возникло это нарушение и как на него повлияет случайная выборка. , В идеале, случайная выборка не будет затронута этим, как в моем примере с хот-догами, где в разумном мире вы бы никогда не сгенерировали случайное число больше, чем число людей в Сан-Франциско ...

Вам также следует помнить о том факте, что ваши результаты могут быть весьма чувствительны к функции апостериорного значения, которая привела к тому, что она является неправильной, даже если впоследствии вы усекаете ее на некоторое большое количество (или какое-либо изменение, подходящее для вашей модели. ) Вы хотели бы, чтобы ваши результаты были устойчивыми к незначительным изменениям, которые смещают ваш задний план от неправильного к правильному. Это может быть труднее обеспечить, но все это является частью более сложной проблемы, заключающейся в том, чтобы убедиться, что ваши результаты соответствуют вашим предположениям, особенно тем, которые сделаны для удобства.

jbowman
источник
+1, интересная тактика. Вы также можете предоставить усечение как ваш настоящий предшественник. Я полагаю, что при выполнении mcmc это может не испортить слишком много ваших вычислений и избежать необходимости обсуждать использование аппроксимации.
домыслы
@conjectures - конечно, в этом случае! Это был простой пример, предназначенный для иллюстрации того, что а) может существовать разница между априором, использованным в расчете MCMC, и фактическим априором, б) разница может быть устранена путем последующей обработки образца ММСМ (для разумная степень «разрешения») и c) несоответствие результатов, полученных ранее, использованных в расчете MCMC, не подразумевает неправильность результатов после выполнения постобработки.
jbowman