В последнее время выросло огромное количество литературы, в которой обсуждается, как извлечь информацию из письменного текста. Поэтому я просто опишу четыре вехи / популярные модели и их преимущества / недостатки и, таким образом, выделю (некоторые из) основные различия (или, по крайней мере, то, что я считаю основными / наиболее важными различиями).
Вы упоминаете «самый простой» подход, который заключается в кластеризации документов путем сопоставления их с предварительно определенным запросом терминов (как в PMI). Однако эти методы лексического сопоставления могут быть неточными из-за многозначности (множественных значений) и синонимии (множественных слов, имеющих сходные значения) отдельных терминов.
В качестве исправления латентная семантическая индексация ( LSI ) пытается преодолеть это путем сопоставления терминов и документов в скрытое семантическое пространство посредством разложения по сингулярным значениям. Результаты LSI являются более надежными индикаторами значения, чем отдельные термины. Тем не менее, один недостаток LSI заключается в том, что ему не хватает прочной вероятностной основы.
Это было частично решено изобретением вероятностного БИС ( pLSI ). В моделях pLSI каждое слово в документе извлекается из смешанной модели, заданной с помощью полиномиальных случайных величин (что также позволяет использовать вхождения более высокого порядка, как упомянуто @sviatoslav hong). Это был важный шаг вперед в вероятностном текстовом моделировании, но он был неполным в том смысле, что он не предлагает вероятностную структуру на уровне документов.
Скрытое распределение Дирихле ( LDA ) облегчает это и стало первой полностью вероятностной моделью для кластеризации текста. Blei et al. (2003) показывают, что pLSI является максимальной апостериорной оценочной моделью LDA при равномерном Dirichlet.
Обратите внимание, что модели, упомянутые выше (LSI, pLSI, LDA) имеют общее, что они основаны на предположении «мешок слов» - то есть, что в документе слова являются взаимозаменяемыми, то есть порядок слов в документе может быть забытым Это предположение о взаимозаменяемости дает дополнительное обоснование для LDA по сравнению с другими подходами: если предположить, что не только слова в документах являются взаимозаменяемыми, но и документы, т. Е. Порядок документов в корпусе можно пренебречь, теорема де Финеттиутверждает, что любой набор заменяемых случайных величин имеет представление в виде смешанного распределения. Таким образом, если предполагается взаимозаменяемость документов и слов в документах, необходима смешанная модель для обоих. Именно этого и добивается LDA, но PMI или LSI не достигают (и даже pLSI не так прекрасна, как LDA).
LDA может фиксировать одновременные вхождения терминов более высокого порядка (поскольку предполагается, что каждая тема является многочленным распределением по терминам), что невозможно при простом вычислении PMI между терминами.
источник
Возможно, я опоздаю на 3 года, но я хочу продолжить ваш вопрос на примере «высокого порядка совпадений».
В основном, если член t1 встречается с термином t2, который совпадает с термином t3, то член t1 является вхождением 2-го порядка с термином t3. Вы можете перейти в более высокий порядок, если хотите, но в конце вы контролируете, насколько похожими должны быть два слова.
источник