Я постараюсь описать имеющуюся проблему как можно более общей. Я моделирую наблюдения как категориальное распределение с вектором вероятности параметра тета.
Затем я предполагаю, что вектор параметров тета следует предварительному распределению Дирихле с параметрами .
Можно ли также наложить гиперприорное распределение по параметрам ? Должно ли это быть многомерное распределение, такое как распределение по категориям и по Дирихле? Мне кажется, что альфа всегда позитивен, поэтому должен работать гамма-гиперприор.
Не уверен, пытался ли кто-нибудь подобрать такие (возможно) сверхпараметрические модели, но мне кажется разумным думать, что альфа не следует фиксировать, а скорее исходить из гамма-распределения.
Пожалуйста, постарайтесь предоставить мне некоторые рекомендации, идеи о том, как я могу попробовать такой подход на практике.
Ответы:
Я не думаю, что это «сверхпараметрическая» модель вообще. Я бы сказал, что, поставив априор над параметрами Дирихле, вы менее настойчивы в отношении любого конкретного результата. В частности, как вы, вероятно, знаете, для симметричных распределений дирихле (т.е. ) установка дает большую вероятность разреженных многочленных распределений, в то время как дает большую априорную вероятность гладкие полиномиальные распределения.α1=α2=...αK α<1 α>1
В тех случаях, когда нет сильных ожиданий для разреженных или плотных многочленных распределений, размещение гиперприора над распределением Дирихле дает вашей модели дополнительную гибкость при выборе между ними.
Изначально у меня появилась идея сделать это из этой статьи . Используемый ими гиперприор немного отличается от того, что вы предлагаете. Они отбирают вектор вероятности из дирихле, а затем масштабируют его по ничьей из экспоненты (или гаммы). Таким образом, модель
Дополнительный Дирихле просто для того, чтобы избежать навязывания симметрии.
Я также видел, как люди используют только Gamma hyper для Dirichlet в контексте скрытых марковских моделей с многочленным распределением излучения, но я не могу найти ссылку. Кроме того, кажется, что я столкнулся с похожими гиперссылками, используемыми в тематических моделях.
источник
Чтобы продемонстрировать решение этой гиперприорной задачи, я реализовал иерархическую модель гамма-Дирихле-полиномиальная в PyMC3. Гамма для Dirichlet указывается и отбирается в блоге Теда Даннинга .
Модель, которую я реализовал, может быть найдена в этом Gist, но также описана ниже:
Это байесовская иерархическая (объединяющая) модель для рейтингов фильмов. Каждый фильм можно оценивать по шкале от нуля до пяти. Каждый фильм оценивается несколько раз. Мы хотим найти сглаженное распределение оценок для каждого фильма.
Мы собираемся изучить предварительное распределение (гиперприор) на основе рейтингов фильмов по данным. Каждый фильм будет иметь свой собственный априор, сглаженный этим априором верхнего уровня. Еще один способ думать об этом заключается в том, что априорные рейтинги для каждого фильма будут сокращены до группового или объединенного распределения.
Если фильм имеет нетипичное распределение рейтинга, такой подход приведет к уменьшению рейтинга до чего-то более соответствующего ожидаемому. Кроме того, этот извлеченный предыдущий может быть полезен для загрузки фильмов с небольшим количеством оценок, чтобы позволить им быть значимым по сравнению с фильмами со многими оценками.
Модель выглядит следующим образом:
где:
источник
Это прямое байесовское сопряженное предварительное моделирование. Естественное продолжение бета-биномиальной модели. Хороший ресурс для этого может быть из книги . И задняя часть также является Dirichlet и, следовательно, моделирование из Dirichlet даст необходимые резюме
источник