Каковы различия между скрытым семантическим анализом (LSA), скрытой семантической индексацией (LSI) и разложением по сингулярным значениям (SVD)?

15

Эти термины часто встречаются вместе, но я хотел бы знать, как вы думаете, в чем различия, если таковые имеются.

Благодарность

Нил Макгиган
источник

Ответы:

12

LSA и LSI в основном используются как синонимы, а информационное сообщество обычно называет их LSI. LSA / LSI использует SVD для разложения матрицы A терминальных документов на матрицу U концептуальных терминов, матрицу S сингулярных значений и матрицу V концептуальных документов в форме: A = USV '. Страница википедии содержит подробное описание скрытой семантической индексации .

ebony1
источник
8

В частности, в то время как LSA и LSI используют SVD для создания своей магии, существует вычислительно и концептуально более простой метод, называемый HAL (гиперпространственный аналог языка), который просматривает текст, отслеживая предшествующий и последующий контексты. Векторы извлекаются из этих (часто взвешенных) матриц совместного использования, и конкретные слова выбираются для индексации семантического пространства. Во многих отношениях мне дано понять, что он работает так же, как и LSA, не требуя математически / концептуально сложного шага SVD. См. Lund & Burgess, 1996 для подробностей.

russellpierce
источник
4
... повторяя предыдущие работы Finch and Chater (1992, 1994), Schütze (1993) и другие. HAL, LSA и другие известные из уровня техники работы производят меру подобия для слов путем вычисления их контекстуального сходства. (Это сходство Шефарда «второго порядка»: сходство «первого порядка» - это когда слово «а» встречается рядом со словом «b»; сходство «второго порядка» заключается в том, что слово «а» встречается рядом с теми же словами, что и слово «В»).
сопряженный
3
Сравнение и противопоставление: для LSA контекст является полным документом. Для HAL и других это текстовое окно, окружающее целевое слово. LSA измеряет расстояние в линейном подпространстве, извлеченном с помощью SVD / PCA, а другой имеет дело с расстояниями в исходном пространстве количества слов.
сопряженный
6

NMF и SVD являются алгоритмами матричной факторизации. В Википедии есть некоторая соответствующая информация о NMF .

A*Aзнак равноAA*

Другие респонденты покрыли LSI / LSA ...

Эмре
источник
это должна быть ковариационная матрица, верно? не корреляционная матрица.
Рафаэль
Да, если вы сначала не отцентрируете свои переменные.
Эмре
после нормализации переменных она становится корреляционной матрицей?
Рафаэль
Нормализация центрируется с масштабированием, так что это другое.
Эмре