Мне интересно, как пометить (пометить) предложения / абзацы / документы с помощью doc2vec в gensim - с практической точки зрения.
Вам нужно иметь каждое предложение / абзац / документ со своей уникальной меткой (например, «Sent_123»)? Это кажется полезным, если вы хотите сказать «какие слова или предложения больше всего похожи на одно конкретное предложение, помеченное как« Sent_123 ».
Можно ли повторять ярлыки в зависимости от содержимого? Например, если каждое предложение / параграф / документ относится к определенному элементу продукта (и для данного элемента продукта есть несколько предложений / параграф / документ), вы можете пометить предложения на основе элемента и затем вычислить сходство между словом или предложение и этот ярлык (который, я думаю, был бы средним из всех тех предложений, которые были связаны с товаром)?
dm=0, dbow_words=1
.doc2vec
Модель получает свой алгоритм отword2vec
.В
word2vec
этом нет необходимости маркировать слова, потому что каждое слово имеет свое семантическое значение в словаре. Но в случаеdoc2vec
необходимости необходимо указать, сколько слов или предложений передают семантическое значение, чтобы алгоритм мог идентифицировать его как единое целое. По этой причине мы указываемlabels
илиtags
предложение или абзац в зависимости от уровня передаваемого смыслового значения.Если мы указываем одну метку для нескольких предложений в абзаце, это означает, что все предложения в абзаце необходимы для передачи значения. С другой стороны, если мы указываем переменные метки для всех предложений в абзаце, это означает, что каждое из них передает семантическое значение, и они могут иметь или не иметь сходство между ними.
Проще говоря,
label
означает смысловой смысл чего-то.источник
If we specify a single label to multiple sentences in a paragraph, it means that all the sentences in the paragraph are required to convey the meaning.
Я не уверен, что правильно понимаю. Из алгоритмов POV, все ли предложения с одинаковым тегом необходимы для семантического определения или все предложения с одинаковым тегом описывают одно и то же? В первом случае ни одно предложение само по себе не является самодостаточным, во втором случае отдельное предложение является самодостаточным.