Вопросы с тегом «nlp»

Обработка естественного языка (NLP) - это область компьютерных наук, искусственного интеллекта и лингвистики, связанная с взаимодействием между компьютерами и человеческими (естественными) языками. Таким образом, НЛП относится к области взаимодействия человека с компьютером. Многие проблемы в НЛП включают понимание естественного языка, то есть предоставление компьютерам возможности извлекать значение из человеческого или естественного языка, а другие связаны с созданием естественного языка.

49
Скрытое распределение Дирихле против иерархического процесса Дирихле

Скрытое выделение Дирихле (LDA) и иерархический процесс Дирихле (HDP) являются темами процессов моделирования. Основное различие заключается в том, что LDA требует уточнения количества тем, а HDP - нет. Почему это так? И каковы различия, плюсы и минусы обоих тематических методов...

34
Каковы некоторые стандартные способы вычисления расстояния между документами?

Когда я говорю «документ», я имею в виду веб-страницы, такие как статьи Википедии и новости. Я предпочитаю ответы, дающие либо ванильные лексические метрики расстояния, либо современные семантические метрики расстояния, с большим предпочтением к...

29
Почему xgboost намного быстрее, чем sklearn GradientBoostingClassifier?

Я пытаюсь обучить модели повышения градиента более чем на 50 тыс. Примеров с 100 числовыми функциями. XGBClassifierобрабатывает 500 деревьев в течение 43 секунд на моей машине, в то время как GradientBoostingClassifierобрабатывает только 10 деревьев (!) за 1 минуту и ​​2 секунды :( Я не стал...

28
Какие алгоритмы я должен использовать для выполнения классификации работы на основе данных резюме?

Обратите внимание, что я делаю все в R. Проблема заключается в следующем: В основном, у меня есть список резюме (резюме). Некоторые кандидаты будут иметь опыт работы раньше, а некоторые нет. Цель здесь состоит в том, чтобы: основываясь на тексте их резюме, я хочу классифицировать их по различным...

25
Word2Vec для распознавания именованных объектов

Я собираюсь использовать реализацию word2vec от Google для создания системы распознавания именованных сущностей. Я слышал, что рекурсивные нейронные сети с обратным распространением через структуру хорошо подходят для задач распознавания именованных сущностей, но я не смог найти достойную...

24
Почему сообщества НЛП и машинного обучения заинтересованы в глубоком обучении?

Я надеюсь, что вы можете мне помочь, так как у меня есть несколько вопросов на эту тему. Я новичок в области глубокого обучения, и хотя я сделал несколько уроков, я не могу связать или отличить понятия друг от...

23
Что такое позиционное кодирование в модели трансформатора?

Я новичок в ML, и это мой первый вопрос здесь, так что извините, если мой вопрос глупый. Я пытаюсь прочитать и понять статью. Внимание - это все, что вам нужно, и в нем есть картинка: Я не знаю, что такое позиционное кодирование . Слушая некоторые видеоролики на YouTube, я обнаружил, что это...

22
Что является лучшим входом для Word2Vec?

Это больше похоже на общий вопрос НЛП. Что является подходящим входом для обучения встраивания слова, а именно Word2Vec? Должны ли все предложения, принадлежащие статье, быть отдельным документом в корпусе? Или каждая статья должна быть документом в указанном корпусе? Это просто пример...

21
Как загрузить предварительно подготовленную модель FastText с помощью Gensim?

Я попытался загрузить предварительно обученную модель fastText отсюда модель Fasttext . Я использую wiki.simple.en from gensim.models.keyedvectors import KeyedVectors word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) Но он показывает следующие ошибки Traceback (most...

20
Как я могу получить меру семантического сходства слов?

Каков наилучший способ выяснить семантическое сходство слов? Word2Vec хорошо, но не идеально: # Using the 840B word Common Crawl GloVe vectors with gensim: # 'hot' is closer to 'cold' than 'warm' In [7]: model.similarity('hot', 'cold') Out[7]: 0.59720456121072973 In [8]: model.similarity('hot',...

20
Предсказание слова с использованием модели Word2vec

Принимая во внимание предложение: «Когда я открываю ?? дверь он начинает нагрев автоматически» Я хотел бы получить список возможных слов в ?? с вероятностью. Основная концепция, используемая в модели word2vec, заключается в том, чтобы «предсказать» слово в заданном окружающем контексте. Как только...

19
Как вырастить список связанных слов на основе начальных ключевых слов?

Недавно я увидел интересную функцию, которая когда- то была доступна в Google Sheets: вы начинаете с написания нескольких связанных ключевых слов в последовательных ячейках, скажем: «синий», «зеленый», «желтый», и автоматически генерирует похожие ключевые слова (в данном случае другие цвета)....

18
Word2Vec против Sentence2Vec против Doc2Vec

Недавно я натолкнулся на термины Word2Vec , Sentence2Vec и Doc2Vec, и я был немного сбит с толку, поскольку я новичок в векторной семантике. Может кто-нибудь, пожалуйста, изложите различия в этих методах простыми словами. Каковы наиболее подходящие задачи для каждого...

18
Лучший практический алгоритм для сходства предложений

У меня есть два предложения, S1 и S2, оба из которых имеют количество слов (обычно) ниже 15. Каковы наиболее практичные и успешные (машинное обучение) алгоритмы, которые, возможно, легко реализовать (нейронная сеть в порядке, если архитектура не такая сложная, как Google Inception и т. Д.). Я ищу...

18
НЛП - почему «не» стоп-слово?

Я пытаюсь удалить стоп-слова перед выполнением моделирования темы. Я заметил, что некоторые слова отрицания (ни, ни, никогда, ни и т.д. ...) обычно считаются стоп-словами. Например, NLTK, spacy и sklearn включают «not» в свои списки стоп-слов. Однако, если мы уберем «не» из этих предложений ниже,...

18
Набор данных для распознавания именованных объектов в неформальном тексте

В настоящее время я ищу маркированные наборы данных, чтобы обучить модель извлекать именованные объекты из неформального текста (что-то похожее на твиты). Поскольку в документах из моего набора данных часто не хватает заглавных букв и грамматики, я ищу данные вне домена, которые немного более...

18
Повышение скорости реализации t-sne в python для больших данных

Я хотел бы уменьшить размерность почти на 1 миллион векторов с 200 измерениями ( doc2vec). Я использую TSNEреализацию из sklearn.manifoldмодуля, и главная проблема - временная сложность. Даже при том method = barnes_hut, что скорость вычислений все еще низка. Некоторое время даже не хватает памяти....

18
Как аннотировать текстовые документы с метаданными?

Имея много текстовых документов (на естественном языке, неструктурированных), каковы возможные способы аннотирования их некоторыми семантическими метаданными? Например, рассмотрим короткий документ: I saw the company's manager last day. Чтобы иметь возможность извлекать информацию из нее, она...

16
Извлечение наиболее информативных частей текста из документов

Есть ли какие-либо статьи или дискуссии по поводу извлечения части текста, которая содержит большую часть информации о текущем документе. Например, у меня большой корпус документов из того же домена. Есть части текста, которые содержат ключевую информацию, о которой говорит отдельный документ. Я...