Сколько учебных данных нужно word2vec?

10

Я хотел бы сравнить разницу между одним и тем же словом, упомянутым в разных источниках. То есть, чем отличаются авторы в использовании плохо определенных слов, таких как «демократия».

Краткий план был

  1. Возьмите книги с упоминанием термина «демократия» как простой текст
  2. В каждой книге заменить democracyнаdemocracy_%AuthorName%
  3. Тренируй word2vecмодель по этим книгам
  4. Вычислить расстояние между democracy_AuthorA, democracy_AuthorBи другой перемаркированными упоминаниями о «демократии»

Так что каждая авторская «демократия» получает свой собственный вектор, который используется для сравнения.

Но, похоже, word2vecдля обучения надежных векторов требуется гораздо больше, чем несколько книг (каждое переименованное слово встречается только в подмножестве книг). Официальная страница рекомендует наборы данных , включая миллиарды слов.

Я просто хотел спросить, насколько большим должно быть подмножество книг одного автора, чтобы сделать такой вывод с помощью word2vecальтернативных инструментов, если таковые имеются?

Антон Тарасенко
источник
1
Являются ли книги, которые вы используете исключительно на тему демократии, если нет, то не может ли ваша дистанционная метрика быть завалена большими различиями в содержании книг? Это побочный эффект вашей проблемы, находящейся в очень высокомерном пространстве и затронутой проклятием размерности. Возможно, использование только небольшого фрагмента текста вокруг интересующего слова поможет, но это все еще проблема со значительным измерением.
image_doctor
1
Да, это суть этого. здесь идет с, вероятно, плохо продуманной метафорой. Представьте, что главы книг представлены цветами. И книга в целом представлена ​​как смесь всех цветов глав. Книга о демократии в Западной Европе, скорее всего, в конечном итоге будет иметь красноватый оттенок в виде суммы глав. Если мы представим туризм синим цветом, книга о туризме на Кубе с единственной главой о демократии и ее влиянии на экономическое развитие будет иметь ярко выраженный синий оттенок. Таким образом, две книги выглядят очень по-разному, если рассматривать их целиком.
image_doctor
1
Это более доступный способ сказать, что специалист в области данных назвал бы, поскольку векторы для двух книг будут сильно отличаться друг от друга в пространстве признаков и, следовательно, будут казаться совершенно разными. Заранее сложно определить, сколько примеров вам понадобится, не играя с данными, но язык тонкий и многоуровневый, поэтому вам, вероятно, понадобится столько, сколько вы сможете получить… и, может быть, больше. В конечном итоге вы не узнаете, пока не попробуете. Это не конкретный ответ, но если кто-то не испытает на себе подобных поступков, вероятно, это лучшее, что вы получите.
image_doctor
1
word2vec уже использует только «небольшую область текста вокруг интересующего слова». windowНаборы параметров , сколько слов в контексте используются для обучения модели для слова ш
jamesmf
1
@politicalscientist Я еще не закончил этот проект.
Антон Тарасенко

Ответы:

1

Похоже, что doc2vec (или векторы параграфа / контекста) может быть правильным решением этой проблемы.

В двух словах, в дополнение к векторам слов вы добавляете «вектор контекста» (в вашем случае - вложение для автора), который используется для предсказания центра или слов контекста.

Это означает, что вы извлечете пользу из всех данных о «демократии», но также извлечете вложение для этого автора, которое в совокупности должно позволить вам проанализировать предвзятость каждого автора с ограниченными данными о каждом авторе.

Вы можете использовать реализацию Gensim . Документ содержит ссылки на исходные документы.

полурослики
источник