Вопросы с тегом «nltk»

The Natural Language Toolkit - это библиотека Python для компьютерной лингвистики.

338
Что такое «энтропия и получение информации»?

Я читаю эту книгу ( NLTK ), и это сбивает с толку. Энтропия является определяется как : Энтропия - это сумма вероятностей каждой метки, умноженная на логарифмическую вероятность той же самой метки. Как я могу применить энтропию и максимальную энтропию с точки зрения интеллектуального анализа...

137
н-граммов в питоне, четыре, пять, шесть граммов?

Ищу способ разбить текст на n-граммы. Обычно я бы сделал что-то вроде: import nltk from nltk import bigrams string = "I really like python, it's pretty awesome." string_bigrams = bigrams(string) print string_bigrams Я знаю, что nltk предлагает только биграммы и триграммы, но есть ли способ разбить...

134
Как проверить, является ли слово английским словом с помощью Python?

Я хочу проверить в программе Python, есть ли слово в английском словаре. Я считаю, что интерфейс nltk wordnet может быть подходящим вариантом, но я понятия не имею, как его использовать для такой простой задачи. def is_english_word(word): pass # how to I implement is_english_word?...

125
Как избавиться от знаков препинания с помощью токенизатора NLTK?

Я только начинаю использовать NLTK и не совсем понимаю, как получить список слов из текста. Если я использую nltk.word_tokenize(), я получаю список слов и знаков препинания. Вместо этого мне нужны только слова. Как избавиться от знаков препинания? Также word_tokenizeне работает с несколькими...

110
Как удалить стоп-слова с помощью nltk или python

Итак, у меня есть набор данных, из которого я хотел бы удалить стоп-слова. stopwords.words('english') Я изо всех сил пытаюсь использовать это в своем коде, чтобы просто убрать эти слова. У меня уже есть список слов из этого набора данных, часть, с которой я борюсь, сравнивает с этим списком и...

104
как проверить, какая версия nltk, scikit learn установлена?

В сценарии оболочки я проверяю, установлены ли эти пакеты или нет, если они не установлены, установите их. Итак, в сценарии оболочки: import nltk echo nltk.__version__ но он останавливает сценарий оболочки на importстроке в терминале linux попытался увидеть таким образом: which nltk который ничего...

102
проблема с pip при установке практически любой библиотеки

Мне сложно использовать pip для установки почти всего. Я новичок в программировании, поэтому я подумал, что, возможно, я делал что-то неправильно, и отказался от easy_install, чтобы выполнить большую часть того, что мне было нужно, что в целом работает. Однако теперь я пытаюсь загрузить библиотеку...

93
Python: tf-idf-cosine: найти сходство документа

Я следил за учебником, который был доступен в частях 1 и 2 . К сожалению, у автора не было времени на последний раздел, в котором использовалось косинусное сходство, чтобы на самом деле найти расстояние между двумя документами. Я следил за примерами в статье с помощью следующей ссылки из...

83
Создание нового корпуса с NLTK

Я считал, что часто ответ на мой заголовок - пойти и прочитать документацию, но я пробежался по книге NLTK, но она не дает ответа. Я новичок в Python. У меня есть куча .txtфайлов, и я хочу иметь возможность использовать функции корпуса, которые NLTK предоставляет для корпуса nltk_data. Я пробовал,...