Мой код:
import nltk.data
tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle')
Сообщение об ошибке:
[ec2-user@ip-172-31-31-31 sentiment]$ python mapper_local_v1.0.py
Traceback (most recent call last):
File "mapper_local_v1.0.py", line 16, in <module>
tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle')
File "/usr/lib/python2.6/site-packages/nltk/data.py", line 774, in load
opened_resource = _open(resource_url)
File "/usr/lib/python2.6/site-packages/nltk/data.py", line 888, in _open
return find(path_, path + ['']).open()
File "/usr/lib/python2.6/site-packages/nltk/data.py", line 618, in find
raise LookupError(resource_not_found)
LookupError:
Resource u'tokenizers/punkt/english.pickle' not found. Please
use the NLTK Downloader to obtain the resource:
>>>nltk.download()
Searched in:
- '/home/ec2-user/nltk_data'
- '/usr/share/nltk_data'
- '/usr/local/share/nltk_data'
- '/usr/lib/nltk_data'
- '/usr/local/lib/nltk_data'
- u''
Я пытаюсь запустить эту программу на машине Unix:
В соответствии с сообщением об ошибке я вошел в оболочку python со своей машины unix, затем я использовал следующие команды:
import nltk
nltk.download()
а затем я загрузил все доступные вещи с помощью параметров d-down loader и l-list, но проблема все еще сохраняется.
Я изо всех сил пытался найти решение в Интернете, но у меня было то же решение, что и я, как я уже упоминал в своих предыдущих шагах.
Ответы:
Чтобы добавить к ответу alvas , вы можете скачать только
punkt
корпус:all
Для меня загрузка звучит излишне. Если только вы этого не хотите.источник
Если вы хотите скачать только
punkt
модель:Если вы не уверены, какие данные / модель вам нужны, вы можете установить популярные наборы данных, модели и тегеры из NLTK:
С помощью указанной выше команды нет необходимости использовать графический интерфейс для загрузки наборов данных.
источник
У меня есть решение:
после запуска загрузчика NLTK
г) Загрузить l) Список u) Обновить c) Конфигурация h) Справка q) Выйти
Загрузчик> d
Какой пакет загрузить (l = список; x = отменить)? Идентификатор> пункт
источник
Из оболочки вы можете выполнить:
Если вы хотите установить популярные корпуса / модели NLTK:
Если вы хотите установить все корпуса / модели NLTK:
Чтобы перечислить загруженные вами ресурсы:
источник
Откройте командную строку Python и выполните указанные выше операторы.
Функция sent_tokenize использует экземпляр PunktSentenceTokenizer из модуля nltk.tokenize.punkt . Этот экземпляр уже обучен и хорошо работает для многих европейских языков. Таким образом, он знает, какие знаки препинания и символы отмечают конец предложения и начало нового предложения.
источник
То же самое случилось со мной недавно, вам просто нужно скачать пакет «punkt», и он должен работать.
Когда вы выполняете «list» (l) после «загрузки всех доступных вещей», все ли помечено как следующая строка ?:
Если вы видите эту строку со звездочкой, это означает, что она у вас есть, и nltk должен ее загрузить.
источник
Перейдите в консоль Python, набрав
в вашем терминале. Затем введите следующие 2 команды в оболочке python для установки соответствующих пакетов:
Это решило проблему для меня.
источник
Моя проблема заключалась в том, что я позвонил
nltk.download('all')
как пользователь root, но процесс, который в конечном итоге использовал nltk, был другим пользователем, у которого не было доступа к / root / nltk_data, где был загружен контент.Поэтому я просто рекурсивно скопировал все из места загрузки в один из путей, по которым NLTK искал это, вот так:
источник
Выполните следующий код:
После этого появится загрузчик NLTK.
источник
После добавления этой строки кода проблема будет исправлена:
источник
Я получал сообщение об ошибке, несмотря на импортирование следующего:
но для Google Colab это решило мою проблему.
источник
Простой nltk.download () не решит эту проблему. Я попробовал следующее, и это сработало для меня:
в папке nltk создайте папку tokenizers и скопируйте папку punkt в папку tokenizers.
Это будет работать.! структура папок должна быть такой, как показано на картинке
источник
Вам необходимо переупорядочить папки. Переместите
tokenizers
папку вnltk_data
папку. Это не работает, если у вас естьnltk_data
папка, содержащаяcorpora
папку, содержащуюtokenizers
папкуисточник
Для меня ничего из вышеперечисленного не сработало, поэтому я просто загрузил все файлы вручную с веб-сайта http://www.nltk.org/nltk_data/ и поместил их также вручную в файл «токенизаторы» внутри «nltk_data». "папка. Не очень хорошее решение, но все же решение.
источник
Я столкнулся с той же проблемой. После загрузки все еще была ошибка «punkt». Я искал пакет на своей машине с Windows в C: \ Users \ vaibhav \ AppData \ Roaming \ nltk_data \ tokenizers, и я вижу там 'punkt.zip'. Я понял, что почему-то zip не был извлечен в C: \ Users \ vaibhav \ AppData \ Roaming \ nltk_data \ tokenizers \ punk. Как только я извлек молнию, все заработало как музыка.
источник
Просто убедитесь, что вы используете
Jupyter
Блокнот и в блокноте сделайте следующее:Затем появится одно всплывающее окно (с информацией https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml ) Из него вам нужно все загрузить.
Затем перезапустите свой код.
источник
Для меня это было решено с помощью "nltk:"
http://www.nltk.org/howto/data.html
Не удалось загрузить english.pickle с помощью nltk.data.load
источник