Это больше похоже на общий вопрос НЛП. Что является подходящим входом для обучения встраивания слова, а именно Word2Vec? Должны ли все предложения, принадлежащие статье, быть отдельным документом в корпусе? Или каждая статья должна быть документом в указанном корпусе? Это просто пример использования Python и Gensim.
Корпус разделить по предложению:
SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."],
["second", "sentence", "of", "the", "first", "article."],
["first", "sentence", "of", "the", "second", "article."],
["second", "sentence", "of", "the", "second", "article."]]
Корпус разделить по статьям:
ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.",
"second", "sentence", "of", "the", "first", "article."],
["first", "sentence", "of", "the", "second", "article.",
"second", "sentence", "of", "the", "second", "article."]]
Обучение Word2Vec на Python:
from gensim.models import Word2Vec
wikiWord2Vec = Word2Vec(ArticleCorpus)
источник
В качестве дополнения к ответу @ NBartley. Чтобы кто-нибудь сталкивался с этим вопросом. Я попытался использовать статью / предложение в качестве входных данных для word2vec на Spark2.2, результат следующим образом.
используйте предложение в качестве ввода:
использовать статью в качестве входных данных:
источник
Для первого у gensim есть класс Word2Vec. Для последнего, Doc2Vec.
http://rare-technologies.com/doc2vec-tutorial/
источник