Text-Classification-Problem: Word2Vec / NN - лучший подход?

10

Я рассчитываю разработать систему, которая с учетом абзаца текста сможет классифицировать его и определить контекст:

  1. Обучается с пользовательскими текстовыми параграфами (например, комментарии / вопросы / ответы)
  2. Каждый элемент в обучающем наборе будет помечен. Так, например, («категория 1», «текстовый абзац»)
  3. Там будут сотни категорий

Каков наилучший подход к созданию такой системы? Я рассмотрел несколько различных вариантов, и ниже приведен список возможных решений. Является ли Word2Vec / NN лучшим решением на данный момент?

  1. Рекурсивная нейросетевая сеть, снабженная усредненными данными Word2Vec
  2. RNTN и вектор абзаца ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf )?
  3. TF-IDF используется в сети Deep Belief
  4. TF-IDF и логистическая регрессия
  5. Мешок слов и наивная байесовская классификация
Шанкар
источник
Можете ли вы уточнить, какие категории? Нужно ли будет уметь обрабатывать новые категории и / или невидимые слова? Требования относительно редких терминов и невидимых категорий помогут при разработке системы.
НБартли
Спасибо @NBartley. Невидимые слова также будут с высокой вероятностью. Входные параметры будут сгенерированы пользователем, поэтому вероятность появления новых невидимых слов будет очень высокой. Категории будут определены, но нам нужно будет со временем расширять список категорий. Спасибо
Шанкар
Вы должны проверить sense2vec тоже arxiv.org/abs/1511.06388 . В двух словах, это вложение слов в сочетании с тегами части речи. Сообщается, что он сделал вложение слов более точным, устраняя неоднозначность омонимов. Было бы интересно посмотреть, улучшит ли это также производительность в задачах классификации.
Wacax

Ответы:

5

1) Макс-энтропия (логистическая регрессия) на векторах TFIDF является хорошей отправной точкой для многих задач классификации НЛП.

2) Word2vec определенно стоит попробовать и сравнить с моделью 1. Я бы предложил использовать вариант Doc2Vec для просмотра предложений / абзацев.

Куок Ле и Томас Миколов. Распределенные представления предложений и документов. http://arxiv.org/pdf/1405.4053v2.pdf

У Gensim (python) есть хорошая модель Doc2vec.

rushimg
источник
Спасибо @rushimg. Если категории тесно связаны, то есть параграф текста, который используется в качестве входных данных, содержит большое количество общих слов, какой из двух подходов будет лучше при понимании контекста и различении между ними?
Шанкар
Я бы использовал модель Doc2Vec из-за того, что она снимает предположение о сумме слов модели max-ent. Если tf-idf используется в качестве функций в модели max-ent, это также уменьшит влияние обычных слов. Я думаю, что попробовать оба метода и настроить их было бы лучшим способом действий.
rushimg