Вопросы с тегом «nlp»

Обработка естественного языка (NLP) - это подполе искусственного интеллекта, которое включает в себя преобразование или извлечение полезной информации из данных на естественном языке. Методы включают машинное обучение и подходы на основе правил.

436
Как Google «Вы имели в виду?» Алгоритм работы?

Я разрабатывал внутренний веб-сайт для инструмента управления портфелем. Там много текстовых данных, названий компаний и т. Д. Я был очень впечатлен способностью некоторых поисковых систем очень быстро отвечать на запросы с помощью «Вы имели в виду: хххх». Мне нужно иметь возможность разумно...

172
Java Stanford NLP: часть речевых этикеток?

Stanford NLP, демо-версия здесь , дает такой результат: Colorless/JJ green/JJ ideas/NNS sleep/VBP furiously/RB ./. Что означают теги «Часть речи»? Я не могу найти официальный список. Это собственная система Стэнфорда, или они используют универсальные теги? (Что такое JJ, например?) Кроме того,...

142
Обнаружение слогов в слове

Мне нужно найти достаточно эффективный способ распознавания слогов в слове. Например, Невидимый -> in-vi-sib-le Вот несколько правил слоговой записи, которые можно использовать: V CV VC CVC CCV CCCV CVCC * где V - гласная, а C - согласная. Например, Произношение (5 Pro-nun-ci-a -tion;...

129
Как Apple находит дату, время и адреса в электронных письмах?

В почтовом клиенте iOS, когда электронное письмо содержит дату, время или место, текст становится гиперссылкой, и можно создать встречу или посмотреть карту, просто нажав на ссылку. Это работает не только для писем на английском, но и на других языках. Мне нравится эта функция, и я хотел бы понять,...

125
Как избавиться от знаков препинания с помощью токенизатора NLTK?

Я только начинаю использовать NLTK и не совсем понимаю, как получить список слов из текста. Если я использую nltk.word_tokenize(), я получаю список слов и знаков препинания. Вместо этого мне нужны только слова. Как избавиться от знаков препинания? Также word_tokenizeне работает с несколькими...

112
Java или Python для обработки естественного языка [закрыто]

Закрыто . Этот вопрос основан на мнении . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы на него можно было ответить с помощью фактов и цитат, отредактировав этот пост . Закрыт 6 лет назад . Уточните этот вопрос Я хотел бы знать, какой язык...

111
Как мне выполнить словесный стемминг или лемматизацию?

Я пробовал PorterStemmer и Snowball, но оба работают не со всеми словами, пропустив некоторые очень распространенные. Мои тестовые слова: « кошки, бегущие, бегали, кактусы, кактусы, сообщества кактусов », и оба получают менее половины правильных ответов. Смотрите также: Алгоритм стемминга, который...

109
Как вычислить точность, отзыв, точность и f1-оценку для мультиклассового случая с помощью scikit learn?

Я работаю над проблемой анализа настроений, данные выглядят так: label instances 5 1190 4 838 3 239 1 204 2 127 Таким образом, мои данные несбалансированы, поскольку 1190 instancesпомечены значком 5. Для классификации я использую SVC scikit . Проблема в том, что я не знаю, как правильно...

93
Как правильно поставить перед словом «а» и «ан»?

У меня есть приложение .NET, в котором, учитывая существительное, я хочу, чтобы оно правильно добавляло к этому слову префикс «a» или «an». Как мне это сделать? Прежде чем вы подумаете, что ответ - просто проверить, является ли первая буква гласной, подумайте о таких фразах, как: честная ошибка...

93
Как обучить Стэнфордский парсер с Genia Corpus?

У меня есть проблемы с созданием новой модели Stanford Parser. Я также скачал последнюю версию из Стэнфорда: http://nlp.stanford.edu/software/lex-parser.shtml А здесь Genia Corpus в 2-х форматах, xml и ptb (Penn Treebank). Standford Parser может обучаться с файлами ptd; затем я скачал Genia...

90
Есть ли хорошая библиотека обработки естественного языка [закрыто]

В настоящее время этот вопрос не подходит для нашего формата вопросов и ответов. Мы ожидаем, что ответы будут подтверждены фактами, ссылками или опытом, но этот вопрос, скорее всего, потребует дебатов, аргументов, опросов или расширенного обсуждения. Если вы считаете, что этот вопрос можно...

87
Анализ тональности Twitter на Python [закрыто]

Закрыто. Этот вопрос не соответствует рекомендациям по переполнению стека . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме Stack Overflow. Закрыт 5 лет назад . Уточните этот вопрос Я ищу реализацию Textual Sentiment Analysis с...

83
Создание нового корпуса с NLTK

Я считал, что часто ответ на мой заголовок - пойти и прочитать документацию, но я пробежался по книге NLTK, но она не дает ответа. Я новичок в Python. У меня есть куча .txtфайлов, и я хочу иметь возможность использовать функции корпуса, которые NLTK предоставляет для корпуса nltk_data. Я пробовал,...

19
Как построить семантический поиск для данного домена

Есть проблема, которую мы пытаемся решить, где мы хотим выполнить семантический поиск по нашему набору данных, то есть у нас есть данные, относящиеся к области (пример: предложения, говорящие об автомобилях) Наши данные - это просто набор предложений, и мы хотим дать фразу и получить обратно...