Я использовал LDA на корпусе документов и нашел несколько тем. Вывод моего кода - две матрицы, содержащие вероятности; вероятности для одной темы и вероятность для другой темы. Но я на самом деле не знаю, как использовать эти результаты, чтобы предсказать тему нового документа. Я использую выборку Гиббса. Кто-нибудь знает как? Благодарность
text-mining
topic-models
Хоссейн
источник
источник
Ответы:
Я бы попробовал «сложить». Это относится к тому, чтобы взять один новый документ, добавить его в корпус, а затем запустить выборку Гиббса только по словам в этом новом документе , сохранив тем самым назначения тем старых документов. Это обычно сходится быстро (может быть 5-10-20 итераций), и вам не нужно выбирать старый корпус, поэтому он также работает быстро. В конце у вас будет назначение темы для каждого слова в новом документе. Это даст вам распределение тем в этом документе.
В вашем сэмплере Gibbs вы, вероятно, имеете нечто похожее на следующий код:
Сгибание такое же, за исключением того, что вы начинаете с существующих матриц, добавляете к ним токены нового документа и делаете выборку только для новых токенов. То есть:
источник