Мешок слов против модели векторного пространства?

12

В чем разница между этими моделями представления текста: мешок слов и модель векторного пространства?

samsamara
источник
Мешок слов представляет собой набор, представляющий уникальные слова как счет. Термин векторное пространство является разреженным логическим вектором, который также записывает положение слова. Думаю.
user122160

Ответы:

15

Мешок слов и модель векторного пространства относятся к различным аспектам характеристики текста, такого как документ. Они хорошо описаны в учебнике «Обработка речи и языка» Jurafsky and Martin, 2009, в разделе 23.1 «Поиск информации». Более краткая ссылка - «Введение в поиск информации» Мэннинга, Рагхавана и Шютце, 2008, в разделе «Модель векторного пространства для оценки».

Мешок слов относится к тому, какую информацию вы можете извлечь из документа (а именно, слова в униграмме). Модель векторного пространства относится к структуре данных для каждого документа (а именно, к вектору признаков пар терминов и весовых терминов). Оба аспекта дополняют друг друга.

Более конкретно:

Мешок слов : для данного документа вы извлекаете только слова с униграммой (иначе термины), чтобы создать неупорядоченный список слов. Нет POS-тегов, нет синтаксиса, нет семантики, нет позиции, нет биграмм, нет триграмм. Только сами слова в униграмме, что делает кучу слов для представления документа. Таким образом: мешок слов .

Модель векторного пространства . Учитывая набор слов, извлеченных из документа, вы создаете вектор элемента для документа, где каждый элемент представляет собой слово (термин), а значение элемента представляет собой весовой коэффициент. Термин вес может быть:

  • двоичное значение (где 1 указывает, что термин встречается в документе, а 0 указывает, что это не так);
  • значение частоты термина (указывающее, сколько раз термин встречался в документе); или же
  • значение TF-IDF (например, небольшое число с плавающей точкой, например, 1,23).

Таким образом, весь документ является вектором объектов, и каждый вектор объектов соответствует точке в векторном пространстве . Модель для этого векторного пространства такова, что для каждого члена в словаре имеется ось, и поэтому векторное пространство является V- мерным, где V - размер словаря. Затем вектор концептуально также должен быть V- мерным с признаком для каждого словарного термина. Однако, поскольку словарь может быть большим (порядка V = 100 000 слагаемых), вектор признаков документа обычно будет содержать только те термины, которые встречаются в этом документе, и опускать термины, которые этого не делали. Такой вектор признаков считается разреженным .

Таким образом, примерное векторное представление документа может выглядеть так:

DOCUMENT_ID_42 LABEL_POLITICS a 55 ability 1 about 5 absent 2 abuse 1 access 1
accompanied 1 accompanying 2 according 2 account 1 accounted 1 accurate 1
acknowledge 4 activities 1 actual 1 actually 2 administering 1 ...

где этот примерный вектор имеет идентификатор документа (например, 42), метку "правда-земля" (например, политику) и список признаков и значений признаков, содержащих пары терминов и терминов частоты. Здесь видно, что слово «отсутствует» встречалось в этом документе 2 раза.

stackoverflowuser2010
источник
1

Если с помощью Bag of Words вы назначаете частоту слов элементу матрицы термина документа, а в матричной матрице элементов векторного пространства элементы термина документа являются достаточно общими, пока операции (точечное произведение) в векторном пространстве имеют смысл (веса tf-idf, для пример)?

danas.zuokas
источник
да, я также думаю, что VSM - улучшенная версия пакета слов.
Самсамара