Я собираюсь использовать реализацию word2vec от Google для создания системы распознавания именованных сущностей. Я слышал, что рекурсивные нейронные сети с обратным распространением через структуру хорошо подходят для задач распознавания именованных сущностей, но я не смог найти достойную реализацию или подходящее руководство для этого типа модели. Поскольку я работаю с нетипичным корпусом, стандартные инструменты NER в NLTK и аналогичных приложениях работают очень плохо, и, похоже, мне придется обучать свою собственную систему.
Короче говоря, какие ресурсы доступны для такого рода проблем? Доступна ли стандартная рекурсивная реализация нейронной сети?
machine-learning
python
neural-network
nlp
Мэдисон Мэй
источник
источник
Ответы:
Вместо «рекурсивных нейронных сетей с обратным распространением» вы можете рассмотреть подход, использованный Frantzi, et. и др. в Национальном центре текстового майнинга (NaCTeM) в Университете Манчестера для Термина (см .: http://www.nactem.ac.uk/index.php и http://personalpages.manchester.ac.uk/staff/sophia. ananiadou / IJODL2000.pdf ) Вместо глубоких нейронных сетей они «объединяют лингвистическую и статистическую информацию».
источник
В двух недавних работах для решения этой проблемы используется архитектура глубокого обучения CharWNN. CharWNN был впервые использован для получения самых современных результатов (без функций, созданных вручную) для тегов части речи (POS) в английском корпусе.
Во втором документе того же автора используется та же (или похожая) архитектура для прогнозирования того, принадлежит ли слово 10 классам именованных объектов, с очевидными современными результатами.
источник
Попробуйте http://deeplearning4j.org/word2vec.html . Это имеет реализацию Word2Vec, используемую вместо Bag of Words для NER и других задач NLP.
источник
Вот некоторые идеи о том, как использовать векторы слов для NER, который использует в основном неконтролируемый подход к word2vec-центру.
findCluster(['joy', 'surprise', 'disgust', 'trust', 'fear', 'sadness', 'anger', 'anticipation'])
может вернуть список, содержащий сотни слов, в основном связанных с эмоциями. Если вы называете этот список «эмоцией», то у вас есть названное понятие «эмоция», определенное на основе векторного пространства.источник