Связь между байесовской статистикой и генеративным моделированием

15

Может ли кто-нибудь отослать меня к хорошей справке, которая объясняет связь между байесовской статистикой и методами генеративного моделирования? Почему мы обычно используем генеративные модели с байесовскими методами?

Почему особенно привлекательно использовать байесовскую статистику в случае отсутствия полных данных, если вообще?

Обратите внимание, что я пришел из более ориентированного на машинное обучение взгляда, и мне интересно больше узнать об этом из сообщества статистиков.

Любая хорошая ссылка, которая обсуждает эти пункты, будет принята с благодарностью. Благодарю.

байесовский
источник
Я изучал фундаментальное различие между адаптивным и генеративным способами трансформации. Кажется, что байесовский подход подходит в качестве статистической модели для изучения адаптивных, но не генеративных. Нужно прийти к такому выводу более уверенно.
1
Привет Сринихи, добро пожаловать на сайт. Это сайт вопросов и ответов. Не могли бы вы переформулировать свой комментарий в вопрос? Кроме того, чем конкретнее вопрос, тем больше вероятность получить полезный ответ.
naught101

Ответы:

12

В машинном обучении модель полной вероятности p (x, y) называется порождающей, потому что она может использоваться для генерации данных, тогда как условная модель p (y | x) называется дискриминационной, поскольку она не определяет вероятностную модель для p (x). ) и может генерировать только у заданного х. Оба могут быть оценены в байесовском стиле.

Байесовская оценка по своей сути заключается в определении полной вероятностной модели и выполнении логического вывода на основе модели и данных. Это дает многим байесовским моделям ощущение генерации. Тем не менее, для байесовской системы важное различие заключается не столько в том, как генерировать данные, сколько в том, что необходимо для получения апостериорного распределения неизвестных параметров, представляющих интерес.

Дискриминативная модель p (y | x) является частью большей модели, где p (y, x) = p (y | x) p (x). Во многих случаях p (x) не имеет отношения к апостериорному распределению параметров в модели p (y | x). В частности, если параметры p (x) отличаются от p (y | x) и априоры независимы, то модель p (x) не содержит информации о неизвестных параметрах условной модели p (y | x), поэтому байесовский не нужно моделировать его.


На более интуитивном уровне существует четкая связь между «генерацией данных» и «вычислением апостериорного распределения». Рубин (1984) дает следующее превосходное описание этой ссылки:

введите описание изображения здесь


Байесовская статистика полезна, учитывая отсутствующие данные, прежде всего потому, что она предоставляет единый способ устранения неприятных параметров - интеграцию. Недостающие данные можно рассматривать как (много) неприятных параметров. Альтернативные предложения, такие как включение ожидаемого значения, обычно плохо работают, потому что мы редко можем оценить недостающие ячейки данных с высоким уровнем точности. Здесь интеграция лучше, чем максимизация.

Дискриминативные модели, такие как p (y | x), также становятся проблематичными, если x включает отсутствующие данные, потому что у нас есть данные только для оценки p (y | x_obs), но большинство разумных моделей написаны относительно полных данных p (y | x). Если у вас полностью вероятностная модель p (y, x) и вы байесовы, то у вас все хорошо, потому что вы можете просто интегрировать по отсутствующим данным, как если бы вы использовали любую другую неизвестную величину.

Тристан
источник
2

@ Тристан: Надеюсь, вы не возражаете против моей доработки вашего ответа, так как я работаю над тем, как сделать общую мысль максимально прозрачной.

Для меня основнойПонимание статистики - это концептуализация повторяющихся наблюдений, которые варьируются - как генерируемые моделью, генерирующей вероятности, такой как Normal (mu, sigma). В начале 1800-х годов модели, генерирующие вероятность, развлекали, как правило, только из-за ошибок измерения с ролью параметров, таких как mu и sigma и априоры для них. Частые подходы принимали параметры как фиксированные и неизвестные, и поэтому модели, генерирующие вероятность, включали только возможные наблюдения. Байесовские подходы (с соответствующими априорами) имеют модели, генерирующие вероятность как для возможных неизвестных параметров, так и для возможных наблюдений. Эти совместные модели, генерирующие вероятности, всесторонне учитывают все - если быть более общими - возможные неизвестные (например, параметры) и известные (например, наблюдения). Как и в ссылке от Рубина, которую вы дали,

На самом деле это было очень четко изображено Гальтоном в двухэтапном квинкунсе в конце 1800-х годов. См. Рисунок 5> Стиглер, Стивен М. 2010. Дарвин, Гальтон и статистическая

просветление. Журнал Королевского статистического общества: серия A 173 (3): 469-482 . ,

Это эквивалентно, но, возможно, более прозрачно, что

задний = предыдущий (возможные неизвестные | возможные известные = известные)

чем задний ~ предыдущий (возможные неизвестные) * p (возможные известные = известные | возможные неизвестные)

Ничего особенного в пропущенных значениях в первом случае нет, поскольку в модель вероятности, генерирующую пропущенные значения, добавляются возможные неизвестные, а пропущенные значения рассматриваются как один из возможных известных (т. Е. Отсутствует третье наблюдение).

В последнее время приближенные байесовские вычисления (ABC) серьезно восприняли этот конструктивный двухэтапный подход к моделированию, когда p (возможные известные = известные | возможные неизвестные) не может быть определено. Но даже тогда, когда это может быть разработано, и задний, легко доступный из выборки MCMC (или даже когда задний непосредственно доступен из-за предшествующего сопряжения), не следует упускать из виду мнение Рубина об этой двухэтапной конструкции выборки, обеспечивающей более легкое понимание.

Например, я уверен, что он поймал бы то, что @Zen сделал здесь Bayesians: рабы функции вероятности? потому что нужно было бы нарисовать возможный неизвестный c из предыдущего (первый этап), а затем нарисовать возможный известный (данные), учитывая, что c (второй этап) не был бы случайным поколением, так как p (возможные известные | c) не было бы вероятности, за исключением одного и только одного c.

От @Zen «К сожалению, в общем, это не является достоверным описанием статистической модели. Проблема в том, что по определениюеИкся|С(|с) должна быть плотность вероятности для почти каждого возможного значениясчто, в общем-то, явно ложно ».

фанерон
источник