Может ли кто-нибудь отослать меня к хорошей справке, которая объясняет связь между байесовской статистикой и методами генеративного моделирования? Почему мы обычно используем генеративные модели с байесовскими методами?
Почему особенно привлекательно использовать байесовскую статистику в случае отсутствия полных данных, если вообще?
Обратите внимание, что я пришел из более ориентированного на машинное обучение взгляда, и мне интересно больше узнать об этом из сообщества статистиков.
Любая хорошая ссылка, которая обсуждает эти пункты, будет принята с благодарностью. Благодарю.
bayesian
generative-models
байесовский
источник
источник
Ответы:
В машинном обучении модель полной вероятности p (x, y) называется порождающей, потому что она может использоваться для генерации данных, тогда как условная модель p (y | x) называется дискриминационной, поскольку она не определяет вероятностную модель для p (x). ) и может генерировать только у заданного х. Оба могут быть оценены в байесовском стиле.
Байесовская оценка по своей сути заключается в определении полной вероятностной модели и выполнении логического вывода на основе модели и данных. Это дает многим байесовским моделям ощущение генерации. Тем не менее, для байесовской системы важное различие заключается не столько в том, как генерировать данные, сколько в том, что необходимо для получения апостериорного распределения неизвестных параметров, представляющих интерес.
Дискриминативная модель p (y | x) является частью большей модели, где p (y, x) = p (y | x) p (x). Во многих случаях p (x) не имеет отношения к апостериорному распределению параметров в модели p (y | x). В частности, если параметры p (x) отличаются от p (y | x) и априоры независимы, то модель p (x) не содержит информации о неизвестных параметрах условной модели p (y | x), поэтому байесовский не нужно моделировать его.
На более интуитивном уровне существует четкая связь между «генерацией данных» и «вычислением апостериорного распределения». Рубин (1984) дает следующее превосходное описание этой ссылки:
Байесовская статистика полезна, учитывая отсутствующие данные, прежде всего потому, что она предоставляет единый способ устранения неприятных параметров - интеграцию. Недостающие данные можно рассматривать как (много) неприятных параметров. Альтернативные предложения, такие как включение ожидаемого значения, обычно плохо работают, потому что мы редко можем оценить недостающие ячейки данных с высоким уровнем точности. Здесь интеграция лучше, чем максимизация.
Дискриминативные модели, такие как p (y | x), также становятся проблематичными, если x включает отсутствующие данные, потому что у нас есть данные только для оценки p (y | x_obs), но большинство разумных моделей написаны относительно полных данных p (y | x). Если у вас полностью вероятностная модель p (y, x) и вы байесовы, то у вас все хорошо, потому что вы можете просто интегрировать по отсутствующим данным, как если бы вы использовали любую другую неизвестную величину.
источник
@ Тристан: Надеюсь, вы не возражаете против моей доработки вашего ответа, так как я работаю над тем, как сделать общую мысль максимально прозрачной.
Для меня основнойПонимание статистики - это концептуализация повторяющихся наблюдений, которые варьируются - как генерируемые моделью, генерирующей вероятности, такой как Normal (mu, sigma). В начале 1800-х годов модели, генерирующие вероятность, развлекали, как правило, только из-за ошибок измерения с ролью параметров, таких как mu и sigma и априоры для них. Частые подходы принимали параметры как фиксированные и неизвестные, и поэтому модели, генерирующие вероятность, включали только возможные наблюдения. Байесовские подходы (с соответствующими априорами) имеют модели, генерирующие вероятность как для возможных неизвестных параметров, так и для возможных наблюдений. Эти совместные модели, генерирующие вероятности, всесторонне учитывают все - если быть более общими - возможные неизвестные (например, параметры) и известные (например, наблюдения). Как и в ссылке от Рубина, которую вы дали,
На самом деле это было очень четко изображено Гальтоном в двухэтапном квинкунсе в конце 1800-х годов. См. Рисунок 5> Стиглер, Стивен М. 2010. Дарвин, Гальтон и статистическая
Это эквивалентно, но, возможно, более прозрачно, что
задний = предыдущий (возможные неизвестные | возможные известные = известные)
чем задний ~ предыдущий (возможные неизвестные) * p (возможные известные = известные | возможные неизвестные)
Ничего особенного в пропущенных значениях в первом случае нет, поскольку в модель вероятности, генерирующую пропущенные значения, добавляются возможные неизвестные, а пропущенные значения рассматриваются как один из возможных известных (т. Е. Отсутствует третье наблюдение).
В последнее время приближенные байесовские вычисления (ABC) серьезно восприняли этот конструктивный двухэтапный подход к моделированию, когда p (возможные известные = известные | возможные неизвестные) не может быть определено. Но даже тогда, когда это может быть разработано, и задний, легко доступный из выборки MCMC (или даже когда задний непосредственно доступен из-за предшествующего сопряжения), не следует упускать из виду мнение Рубина об этой двухэтапной конструкции выборки, обеспечивающей более легкое понимание.
Например, я уверен, что он поймал бы то, что @Zen сделал здесь Bayesians: рабы функции вероятности? потому что нужно было бы нарисовать возможный неизвестный c из предыдущего (первый этап), а затем нарисовать возможный известный (данные), учитывая, что c (второй этап) не был бы случайным поколением, так как p (возможные известные | c) не было бы вероятности, за исключением одного и только одного c.
От @Zen «К сожалению, в общем, это не является достоверным описанием статистической модели. Проблема в том, что по определениюеИкся∣ C(⋅ | с ) должна быть плотность вероятности для почти каждого возможного значенияс что, в общем-то, явно ложно ».
источник