Я хотел бы сравнить разницу между одним и тем же словом, упомянутым в разных источниках. То есть, чем отличаются авторы в использовании плохо определенных слов, таких как «демократия».
Краткий план был
- Возьмите книги с упоминанием термина «демократия» как простой текст
- В каждой книге заменить
democracy
наdemocracy_%AuthorName%
- Тренируй
word2vec
модель по этим книгам - Вычислить расстояние между
democracy_AuthorA
,democracy_AuthorB
и другой перемаркированными упоминаниями о «демократии»
Так что каждая авторская «демократия» получает свой собственный вектор, который используется для сравнения.
Но, похоже, word2vec
для обучения надежных векторов требуется гораздо больше, чем несколько книг (каждое переименованное слово встречается только в подмножестве книг). Официальная страница рекомендует наборы данных , включая миллиарды слов.
Я просто хотел спросить, насколько большим должно быть подмножество книг одного автора, чтобы сделать такой вывод с помощью word2vec
альтернативных инструментов, если таковые имеются?
text-mining
word-embeddings
Антон Тарасенко
источник
источник
window
Наборы параметров , сколько слов в контексте используются для обучения модели для слова шОтветы:
Похоже, что doc2vec (или векторы параграфа / контекста) может быть правильным решением этой проблемы.
В двух словах, в дополнение к векторам слов вы добавляете «вектор контекста» (в вашем случае - вложение для автора), который используется для предсказания центра или слов контекста.
Это означает, что вы извлечете пользу из всех данных о «демократии», но также извлечете вложение для этого автора, которое в совокупности должно позволить вам проанализировать предвзятость каждого автора с ограниченными данными о каждом авторе.
Вы можете использовать реализацию Gensim . Документ содержит ссылки на исходные документы.
источник