Таким образом, в (неконтролируемом) текстовом моделировании скрытое распределение Дирихле (LDA) является байесовской версией вероятностного скрытого семантического анализа (PLSA). По сути, LDA = PLSA + Dirichlet перед его параметрами. Насколько я понимаю, LDA теперь является эталонным алгоритмом и реализован в различных пакетах, в то время как PLSA больше не следует использовать.
Но в (контролируемой) текстовой категоризации мы могли бы сделать то же самое для полиномиального наивного байесовского классификатора и поставить Дирихле перед параметрами. Но я не думаю, что когда-либо видел, чтобы кто-то делал это, и версия «точечной оценки» многочленного Наивного Байеса, кажется, является версией, реализованной в большинстве пакетов. Есть ли причина для этого?
Я подозреваю, что большинство реализаций NB позволяют оценивать условные вероятности с помощью поправки Лапласа , которая дает MAP-решение для байесовского NB-классификатора (с конкретным предварительным вариантом Дирихле). Как указывает @Zhubarb (+1), байесовские трактовки классификаторов NB уже получены и реализованы (тезисы / статьи Ренни заслуживают прочтения). Тем не менее, предположение о независимости NB почти всегда неверно, и в этом случае сделать модель более сильно зависимой от этого предположения (посредством полного байесовского подхода) может оказаться не очень хорошим делом.
источник
Я не верю в то, что вы описываете, правда. Вероятностные модели для LDA и MNB различны.
Одно из основных различий между ними состоит в том, что в генеративной модели для LDA, когда слово нарисовано, сначала выбирается тема для этого слова, а затем выбирается слово из этого распределения темы. Iow каждое слово в документе может быть взят из другой темы.
В порождающей модели для MNB документу присвоен один класс, и все слова в этом документе взяты из (того же) распределения для этого класса.
источник