Я программист без статистического образования, и в настоящее время я смотрю на различные методы классификации для большого количества различных документов, которые я хочу классифицировать по заранее определенным категориям. Я читал о KNN, SVM и NN. Однако у меня есть некоторые проблемы с началом работы. Какие ресурсы вы рекомендуете? Я достаточно хорошо знаю одно переменное и многопараметрическое исчисление, поэтому моя математика должна быть достаточно сильной. У меня также есть книга Бишопа по нейронным сетям, но в качестве введения она оказалась немного плотной.
32
Отличным вводным текстом, охватывающим упомянутые вами темы, является « Введение в поиск информации» , которое доступно в Интернете в виде полного текста бесплатно.
источник
Нейронная сеть может быть медленной для большого количества документов (также это теперь в значительной степени устарело).
И вы также можете проверить случайный лес среди классификаторов; это довольно быстро, хорошо масштабируется и не требует сложной настройки.
источник
Если вы работаете со стороны программирования, одним из вариантов является использование Natural Language Toolkit (NLTK) для Python. Есть книга O'Reilly, доступная бесплатно , которая может быть менее плотным и более практичным введением в построение классификаторов для документов среди прочего.
Если вы заинтересованы в расширении статистических данных, книга Роджера Леви « Вероятностные модели в изучении языка» может быть неплохой для прочтения. Это написано для аспирантов / студентов, начинающих со статистических методов НЛП.
источник
Во-первых, я могу порекомендовать вам книгу « Основы статистической обработки естественного языка » Мэннинга и Шютце.
Методы, которые я бы использовал, - это частотные распределения слов и модели языка ngram. Первый работает очень хорошо, когда вы хотите классифицировать по теме, а ваши темы являются конкретными и экспертными (с ключевыми словами). Ngram моделирование - лучший способ для классификации стилей письма и т. Д.
источник
Наивный байесовский анализ обычно является отправной точкой для классификации текста, вот статья доктора Доббса о том, как ее реализовать. Это также часто является конечной точкой для классификации текста, потому что она настолько эффективна и хорошо распараллеливается, что используют SpamAssassin и POPFile.
источник