Тематические модели и методы совместного использования слов

26

Популярные тематические модели, такие как LDA, обычно объединяют слова, которые обычно объединяются в одну и ту же тему (кластер).

В чем основное различие между такими тематическими моделями и другими простыми подходами кластеризации на основе совпадений, такими как PMI? (PMI расшифровывается как Pointwise Mutual Information и используется для идентификации слов, которые встречаются с данным словом.)

kanzen_master
источник

Ответы:

32

В последнее время выросло огромное количество литературы, в которой обсуждается, как извлечь информацию из письменного текста. Поэтому я просто опишу четыре вехи / популярные модели и их преимущества / недостатки и, таким образом, выделю (некоторые из) основные различия (или, по крайней мере, то, что я считаю основными / наиболее важными различиями).

Вы упоминаете «самый простой» подход, который заключается в кластеризации документов путем сопоставления их с предварительно определенным запросом терминов (как в PMI). Однако эти методы лексического сопоставления могут быть неточными из-за многозначности (множественных значений) и синонимии (множественных слов, имеющих сходные значения) отдельных терминов.

В качестве исправления латентная семантическая индексация ( LSI ) пытается преодолеть это путем сопоставления терминов и документов в скрытое семантическое пространство посредством разложения по сингулярным значениям. Результаты LSI являются более надежными индикаторами значения, чем отдельные термины. Тем не менее, один недостаток LSI заключается в том, что ему не хватает прочной вероятностной основы.

Это было частично решено изобретением вероятностного БИС ( pLSI ). В моделях pLSI каждое слово в документе извлекается из смешанной модели, заданной с помощью полиномиальных случайных величин (что также позволяет использовать вхождения более высокого порядка, как упомянуто @sviatoslav hong). Это был важный шаг вперед в вероятностном текстовом моделировании, но он был неполным в том смысле, что он не предлагает вероятностную структуру на уровне документов.

Скрытое распределение Дирихле ( LDA ) облегчает это и стало первой полностью вероятностной моделью для кластеризации текста. Blei et al. (2003) показывают, что pLSI является максимальной апостериорной оценочной моделью LDA при равномерном Dirichlet.

Обратите внимание, что модели, упомянутые выше (LSI, pLSI, LDA) имеют общее, что они основаны на предположении «мешок слов» - то есть, что в документе слова являются взаимозаменяемыми, то есть порядок слов в документе может быть забытым Это предположение о взаимозаменяемости дает дополнительное обоснование для LDA по сравнению с другими подходами: если предположить, что не только слова в документах являются взаимозаменяемыми, но и документы, т. Е. Порядок документов в корпусе можно пренебречь, теорема де Финеттиутверждает, что любой набор заменяемых случайных величин имеет представление в виде смешанного распределения. Таким образом, если предполагается взаимозаменяемость документов и слов в документах, необходима смешанная модель для обоих. Именно этого и добивается LDA, но PMI или LSI не достигают (и даже pLSI не так прекрасна, как LDA).

Момо
источник
2
1/2 Спасибо! Очень ясно. Позвольте мне проверить, правильно ли я понял: в LSI документы формируются из смеси слов (без понятия тем), а слова и документы отображаются в семантическом пространстве более низкого измерения с использованием SVD. Поскольку слова с похожим семантическим значением отображаются ближе, это может иметь дело с синонимией, но имеет проблемы с полисемией. pLSI решает проблему полисемии, вводя понятие тем. В pLSI слова взяты из многочленного распределения слов (тем), одно и то же слово может принадлежать нескольким темам, а документ имеет несколько тем, хотя это явно не смоделировано.
kanzen_master
2
Я думаю, что в целом вы правильно поняли. Некоторые небольшие исправления: Считается, что LSI работает нормально как с полисемией, так и с синомией. pLSI - это, по сути, формула для достижения того, к чему стремится LSI, с помощью инструментов анализа латентных классов / смешанных моделей и вероятностей, а не просто линейной алгебры. LDA по сравнению с pLSI является полностью генеративной моделью, определяя распределение тем для каждого документа.
Момо
1
Что касается ваших пунктов о переоснащении и прогнозировании, я недостаточно осведомлен для квалифицированного утверждения. Но, несмотря на все свои достоинства, я не понимаю, почему LDA должен быть менее склонным к переоснащению, чем pLSI (поскольку LDA в основном просто добавляет предшествующую модель pLSI). Оба не имеют встроенной коррекции для переоснащения или тому подобного. «Предсказание» новых документов действительно может быть проще или осуществимо с помощью полностью порождающей модели, такой как LDA, см. Stats.stackexchange.com/questions/9315/… Но я бы воспринял LDA как неконтролируемую описательную модель.
Момо
1
Еще раз спасибо! Всего 2 заключительных вопроса: (1) Относительно многозначности, в этом pdf конце 3 страницы Хоффман утверждает, что одним из различий PLSI по сравнению с LSI является многозначность, поскольку одно и то же слово может принадлежать к разным распределениям слов (темам); вот почему я подумал, что LSI не работает с многозначностью. (2) Что касается переоснащения, этот блог утверждает, что линейное увеличение параметров предполагает, что модель склонна к переоснащению. Что вы думаете ?
kanzen_master
2
Нет проблем. Вы уже много знаете об этих вещах, поэтому я тоже учусь. ad (1) Ну, как обычно, это зависит: LSI может обрабатывать многозначность благодаря линейной комбинации терминов, как это делается в PCA. Это лучше с синонимами, но в определенной степени также с многозначностью. В основном многозначные слова, которые похожи, являются добавленными компонентами слов, которые имеют сходное значение. Тем не менее, он делает это намного хуже, чем pLSI, поскольку каждое вхождение слова представляется как одна точка в пространстве. Таким образом, слово представляет собой среднее значение всех различных значений слова в корпусе.
Момо
5

LDA может фиксировать одновременные вхождения терминов более высокого порядка (поскольку предполагается, что каждая тема является многочленным распределением по терминам), что невозможно при простом вычислении PMI между терминами.

Лянцзе Хонг
источник
4
Благодарность! Каково определение «высокого порядка совпадений»?
kanzen_master
5

Возможно, я опоздаю на 3 года, но я хочу продолжить ваш вопрос на примере «высокого порядка совпадений».

В основном, если член t1 встречается с термином t2, который совпадает с термином t3, то член t1 является вхождением 2-го порядка с термином t3. Вы можете перейти в более высокий порядок, если хотите, но в конце вы контролируете, насколько похожими должны быть два слова.

suthee
источник