Вопросы с тегом «nlp»

11
Как определить, является ли последовательность символов английским словом или шумом

Какие функции вы будете пытаться извлечь из списка слов для будущего предсказания, это уже существующее слово или просто беспорядок символов? Там есть описание задачи, которую я там нашел . Вы должны написать программу, которая может ответить, является ли данное слово английским. Это было бы легко...

11
Как «намерение recognisers» работу?

Амазонка Alexa , Nuance в Mix и Facebook, Wit.ai все используют подобную систему , чтобы указать , как преобразовать текстовую команду в умысел - то есть что - то компьютер поймет. Я не уверен, что это за «официальное» название, но я называю это «признание намерений». В основном путь от «пожалуйста...

11
применяя word2vec к небольшим текстовым файлам

Я совершенно новичок в word2vec, так что, пожалуйста, несите это со мной. У меня есть набор текстовых файлов, каждый из которых содержит набор твитов, между 1000-3000. Я выбрал общее ключевое слово ("kw1") и хочу найти семантически релевантные термины для "kw1", используя word2vec. Например, если...

11
Как word2vec может быть использован для выявления невидимых слов и соотнести их с уже подготовленными данными

Я работал на word2vec gensim модели и нашел, что это действительно интересно. Меня интересует, как неизвестное / невидимое слово при проверке с моделью сможет получить аналогичные термины от обученной модели. Это возможно? Может word2vec быть переделаны для этого? Или учебный корпус должен иметь...

10
Как определить сложность английского предложения?

Я работаю над приложением, чтобы помочь людям выучить английский как второй язык. Я подтвердил, что предложения помогают в изучении языка, предоставляя дополнительный контекст. Я сделал это, проведя небольшое исследование в классе из 60 учеников. Я добыл более ста тысяч предложений из Википедии для...

10
Извлечь каноническую строку из списка шумных строк

У меня есть тысячи списков строк, и каждый список имеет около 10 строк. Большинство строк в данном списке очень похожи, хотя некоторые строки (редко) полностью не связаны с другими, а некоторые строки содержат нерелевантные слова. Их можно считать шумными вариациями канонической струны. Я ищу...

10
Лучшие языки для научных вычислений [закрыто]

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 5 лет назад . Похоже, что большинство языков имеют некоторое...

10
Являются ли Word2Vec и Doc2Vec распределенным представлением или распределенным представлением?

Я читал, что представление о распределении основано на гипотезе о том, что слова, встречающиеся в сходном контексте, имеют сходное значение. Word2Vec и Doc2Vec оба смоделированы в соответствии с этой гипотезой. Но в оригинальной статье даже они названы как Distributed representation of words and...

9
Использование Vowpal Wabbit для NER

Vowpal Wabbit (VW), очевидно, поддерживает функцию маркировки последовательности через SEARN . Проблема в том, что я нигде не могу найти подробный список параметров с пояснениями и некоторыми примерами. Лучшее, что я смог найти - это запись в блоге Зинкова с очень коротким примером. Главная...

9
Как создать хороший список стоп-слов

Я ищу несколько советов о том, как составить список стоп-слов. Кто-то знает / кто-то может порекомендовать хороший метод для извлечения списков стоп-слов из самого набора данных для предварительной обработки и фильтрации? Данные: огромное количество вводимого человеком текста различной длины...