Вопросы с тегом «natural-language»

Обработка естественного языка - это набор методов из лингвистики, искусственного интеллекта, машинного обучения и статистики, которые направлены на обработку и понимание человеческих языков.

48
Рекуррентные и рекурсивные нейронные сети: что лучше для НЛП?

Существуют рекуррентные нейронные сети и рекурсивные нейронные сети. Оба обычно обозначаются одной и той же аббревиатурой: RNN. Согласно Википедии , Рекуррентный NN на самом деле является Рекурсивным NN, но я не совсем понимаю объяснение. Более того, я не могу найти, что лучше (с примерами или...

43
Нейронные сети ссылок (учебники, онлайн-курсы) для начинающих

Я хочу изучать нейронные сети. Я вычислительный лингвист. Я знаю подходы статистического машинного обучения и умею кодировать на Python. Я хочу начать с его концепций и знаю одну или две популярные модели, которые могут быть полезны с точки зрения компьютерной лингвистики. Я просмотрел сеть для...

39
LDA против word2vec

Я пытаюсь понять, в чем сходство скрытого распределения Дирихле и word2vec для вычисления сходства слов. Как я понимаю, LDA отображает слова в вектор вероятностей скрытых тем, в то время как word2vec отображает их в вектор действительных чисел (относительно разложения по сингулярным точкам...

38
Применить вложения слов ко всему документу, чтобы получить вектор объектов

Как использовать вложение слов для сопоставления документа с вектором объектов, подходящим для использования с контролируемым обучением? Слово вложение отображает каждое слово к вектору , где некоторые не слишком большое количество (например, 500). Популярные вложения слова включают в себя word2vec...

33
Интуитивное различие между скрытыми марковскими моделями и условными случайными полями

Я понимаю, что HMM (скрытые марковские модели) являются порождающими моделями, а CRF - дискриминационными моделями. Я также понимаю, как создаются и используются CRF (условные случайные поля). Что я не понимаю, так это чем они отличаются от HMM? Я читал, что в случае HMM мы можем только...

29
R: Случайный лес, выбрасывающий NaN / Inf в ошибке «вызова сторонней функции», несмотря на отсутствие NaN в наборе данных [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 2 года назад . Я использую каретку, чтобы запустить перекрестный проверенный случайный лес по набору данных. Переменная...

27
Является ли сходство косинусов идентичным l2-нормированному евклидову расстоянию?

Идентичный смысл, что он будет производить идентичные результаты для ранжирования сходства между вектором ¯u и набором векторами V . У меня есть модель векторного пространства, в которой в качестве параметров используется мера расстояния (евклидово расстояние, косинусное сходство) и метод...

26
Тематические модели и методы совместного использования слов

Популярные тематические модели, такие как LDA, обычно объединяют слова, которые обычно объединяются в одну и ту же тему (кластер). В чем основное различие между такими тематическими моделями и другими простыми подходами кластеризации на основе совпадений, такими как PMI? (PMI расшифровывается как...

20
Были ли воспроизведены современные результаты использования векторов абзацев для анализа настроений?

Я был впечатлен результатами в работе ICML 2014 года « Распределенное представление предложений и документов » Ле и Миколова. Техника, которую они описывают, называемая «векторами абзацев», изучает неконтролируемые представления произвольно длинных абзацев / документов на основе расширения модели...

18
Почему обработка естественного языка не входит в область машинного обучения? [закрыто]

В настоящее время этот вопрос не очень подходит для нашего формата вопросов и ответов. Мы ожидаем, что ответы будут подтверждены фактами, ссылками или опытом, но этот вопрос, скорее всего, вызовет дебаты, споры, опрос или расширенное обсуждение. Если вы считаете, что этот вопрос можно улучшить и,...

15
В сглаживании Кнезера-Нея, как обрабатываются невидимые слова?

Из того, что я видел, формула сглаживания Кнезера-Ней (второго порядка) так или иначе задается как P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)PKN2(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn) \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{...

14
Тематические модели для коротких документов

Вдохновленный этим вопросом , мне интересно, была ли проделана какая-либо работа над тематическими моделями для больших коллекций чрезвычайно коротких текстов. Моя интуиция заключается в том, что Twitter должен быть естественным источником вдохновения для таких моделей. Однако, из-за некоторых...

13
При чем n-граммы становятся контрпродуктивными?

При обработке на естественном языке можно взять корпус и оценить вероятность появления следующего слова в последовательности из n. n обычно выбирается как 2 или 3 (биграммы и триграммы). Есть ли известная точка, в которой отслеживание данных для n-й цепочки становится контрпродуктивным, учитывая...

13
Как рассчитывается метод сходства в SpaCy?

Не уверен, что это правильный сайт стека, но здесь идет. Как работает метод .similiarity? Wow spaCy это здорово! Его модель tfidf может быть проще, но w2v только с одной строкой кода ?! В своем 10-строчном уроке по spaCy andrazhribernik показывает нам метод сходства, который можно использовать для...

12
Почему n-грамм используется в идентификации текста вместо слов?

В двух популярных библиотеках идентификации языка, Compact Language Detector 2 для C ++ и Language Detector для Java, обе они использовали (на основе символов) n-граммы для извлечения текстовых функций. Почему пакет слов (одно слово / словарь) не используется, и каковы преимущества и недостатки...

12
Захват начальных образцов при использовании усеченного обратного распространения по времени (RNN / LSTM)

Скажем, я использую RNN / LSTM для анализа настроений, который является подходом «многие к одному» (см. Этот блог ). Сеть обучается по усеченному обратному распространению по времени (BPTT), где сеть разворачивается всего за 30 последних шагов, как обычно. В моем случае каждый из моих текстовых...

12
Как применять нейронные сети в задачах классификации по нескольким меткам?

Описание: Пусть проблемная область будет классификацией документов, где существует набор векторов признаков, каждый из которых принадлежит одному или нескольким классам. Например, документ doc_1может принадлежать Sportsи Englishкатегориям. Вопрос: Используя нейронную сеть для классификации, какой...

12
Почему иерархический софтмакс лучше для нечастых слов, а отрицательная выборка лучше для частых слов?

Интересно, почему иерархический софтмакс лучше подходит для нечастых слов, а отрицательная выборка лучше для частых слов в моделях CBOW и skip-грамм word2vec. Я прочитал претензию на https://code.google.com/p/word2vec/...