Я рассчитываю разработать систему, которая с учетом абзаца текста сможет классифицировать его и определить контекст:
- Обучается с пользовательскими текстовыми параграфами (например, комментарии / вопросы / ответы)
- Каждый элемент в обучающем наборе будет помечен. Так, например, («категория 1», «текстовый абзац»)
- Там будут сотни категорий
Каков наилучший подход к созданию такой системы? Я рассмотрел несколько различных вариантов, и ниже приведен список возможных решений. Является ли Word2Vec / NN лучшим решением на данный момент?
- Рекурсивная нейросетевая сеть, снабженная усредненными данными Word2Vec
- RNTN и вектор абзаца ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf )?
- TF-IDF используется в сети Deep Belief
- TF-IDF и логистическая регрессия
- Мешок слов и наивная байесовская классификация
Ответы:
1) Макс-энтропия (логистическая регрессия) на векторах TFIDF является хорошей отправной точкой для многих задач классификации НЛП.
2) Word2vec определенно стоит попробовать и сравнить с моделью 1. Я бы предложил использовать вариант Doc2Vec для просмотра предложений / абзацев.
Куок Ле и Томас Миколов. Распределенные представления предложений и документов. http://arxiv.org/pdf/1405.4053v2.pdf
У Gensim (python) есть хорошая модель Doc2vec.
источник