Хорошие книги по добыче текста?

11

Привет, я хотел узнать, есть ли хорошие книги по интеллектуальному анализу и классификации текста с некоторыми примерами? Если бы не некоторые документы / журналы, доступные для общественности, подойдут. Если они иллюстрируют свои примеры с R еще лучше. Я не ищу пошаговое руководство, но что-то, что иллюстрирует плюсы и минусы различных подходов к анализу текста для различных классов проблем.

Дасмана
источник

Ответы:

5

Ознакомьтесь с http://lintool.github.com/MapReduceAlgorithms/MapReduce-book-final.pdf Интенсивная обработка текста с помощью MapReduce - эта книга довольно академична, но охватывает ряд часто используемых методов обработки текста и способы их использования. на большой набор данных с использованием карты уменьшить.

www.rtexttools.com Это превосходный пакет R, который помогает вам применять широкий спектр алгоритмов классификации (включая некоторые методы ансамбля) для анализа текста. и

Росс Фаррелли
источник
4
Чтобы сделать этот ответ самодостаточным, не могли бы вы дать краткое резюме каждой ссылки?
гл.
4

Я недавно прочитал четыре книги в этой области:

Фельдман Р. и Джеймс Сэнджер Дж. (2006). Руководство по добыче текста: современные подходы к анализу неструктурированных данных. Издательство Кембриджского университета.

Этот документ посвящен практическим примерам, программному и прикладному анализу текста. Это дает множество примеров практического использования текстового майнинга. Это может быть интересно, если вы хотите прочитать о коммерческих приложениях инструментов интеллектуального анализа текста.

Сривастава А. Н. и Сахами М. (2009). Text Mining: классификация, кластеризация и приложения. Чепмен и Холл / CRC.

Это серия исследовательских работ, которые используются в качестве примеров использования различных инструментов интеллектуального анализа текста. Это скорее слишком сфокусировано, как для вступительного испытания.

Вайс С.М., Индурхья Н., Чжан Т. и Дамерау Ф. (2005). Text Mining: Прогнозные методы анализа неструктурированной информации. Springer.

Очень вводный текст, который описывает некоторые общие вопросы.

Мэннинг, C. (1999). Основы статистической обработки естественного языка. MIT Press.

Это лучшая книга, которую я уже прочитал на эту тему. Он хорошо написан, понятен, углубляется в теорию, но в практическом плане. Начинается с общего введения, но затем рассматриваются некоторые из наиболее часто используемых методов и алгоритмов. Если вам нужно выбрать только одну книгу, я бы порекомендовал эту.

Вы также можете легко найти несколько книг по обработке естественного языка и интеллектуальному анализу текста, которые фокусируются на использовании R ( библиотека tm ) или Python ( библиотека nltk ).

Тим
источник
2

Это может быть не совсем точно для того, что вы ищете, но освоение регулярных выражений Джеффри Фридлом является отличным источником для изучения того, как использовать регулярные выражения для разбора текста. Он не обсуждает методы моделирования, но, вооружившись подсчетами от применения регулярных выражений, вы можете применять различные стандартные подходы к моделированию.

Чарли
источник
2

Одна книга, которую я снова и снова возвращаюсь к идеям, - это « Разработка текста: методы прогнозирования » Шолом Вайс. В нем есть много идей для решения проблем, которые я считаю полезными, поскольку иногда анализ текста связан с попытками разных вещей - словарь Global vs Local, количество функций, которые нужно сохранить, и т. Д. Я считаю эту книгу хорошим генератором идей. Он также имеет тематические исследования.

Wake2Sleep
источник