Вопросы с тегом «natural-language»

11
Вопрос о непрерывной сумке слов

У меня проблемы с пониманием этого предложения: Первая предложенная архитектура аналогична NNLM с прямой связью, где нелинейный скрытый слой удаляется, а проекционный слой используется для всех слов (а не только для матрицы проекции); таким образом, все слова проецируются в одну и ту же позицию (их...

11
Разъяснение максимизации ожидания

Я нашел очень полезное руководство по алгоритму EM . Пример и картинка из урока просто великолепны. Связанный вопрос о вычислении вероятностей, как работает максимизация ожидания? У меня есть еще один вопрос относительно того, как связать теорию, описанную в руководстве, с примером. На этапе E EM...

11
Обработка неизвестных слов в задачах моделирования языка с использованием LSTM

Для задачи обработки естественного языка (NLP) часто используют векторы word2vec в качестве вложения для слов. Тем не менее, может быть много неизвестных слов, которые не перехвачены векторами word2vec просто потому, что эти слова не видны достаточно часто в обучающих данных (многие реализации...

11
Как модель скип-граммы Word2Vec генерирует выходные векторы?

У меня проблемы с пониманием скип-грамматической модели алгоритма Word2Vec. В непрерывном пакете слов легко увидеть, как контекстные слова могут «вписаться» в нейронную сеть, поскольку вы в основном усредняете их после умножения каждого из представлений кодирования с одним горячим кодированием на...

11
Алгоритмы встраивания слов с точки зрения производительности

Я пытаюсь вставить примерно 60 миллионов фраз в векторное пространство , а затем вычислить косинусное сходство между ними. Я использовал sklearn CountVectorizerс пользовательской функцией токенизатора, которая создает униграммы и биграммы. Оказывается, чтобы получить осмысленное представление, мне...

11
Каковы плюсы и минусы применения точечной взаимной информации на матрице словосочетания перед SVD?

Один из способов создания встраивания слов заключается в следующем ( зеркало ): Получите корпус, например: «Мне нравится летать. Мне нравится НЛП. Мне нравится глубокое обучение». Создайте матрицу словосочетания из него: Выполните SVD на ИксИксX и сохраните первые ККk столбцов U. U1 : | В|...

10
Недоумение и кросс-энтропия для моделей с n-граммами

Попытка понять связь между перекрестной энтропией и недоумением. В общем случае для модели M , Недоумение (М) = 2 ^ энтропии (M) . Действуют ли эти отношения для всех разных n-грамм, то есть униграмм, биграмм и т....

10
Как измерить дисперсию в данных частоты слов?

Как я могу определить количество дисперсии в векторе количества слов? Я ищу статистику, которая будет высокой для документа A, потому что она содержит много разных слов, которые встречаются редко, и низкой для документа B, потому что она содержит одно слово (или несколько слов), которые встречаются...

10
Понимание использования логарифмов в логарифме TF-IDF

Я читал: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Но я не могу понять, почему именно формула была построена такой, какая она есть. Что я делаю Понять: iDF должен на каком-то уровне измерять, как часто термин S появляется в каждом из документов, уменьшаясь в значении по мере того, как...

10
Относительно использования биграммы (N-грамма) для построения векторного элемента для текстового документа

Традиционный подход к построению объектов для интеллектуального анализа текста - это подход «мешок слов», и его можно усовершенствовать с помощью tf-idf для настройки вектора объектов, характеризующего данный текстовый документ. В настоящее время я пытаюсь использовать модель языка биграмм или...

10
Как я могу сгруппировать строки по общим темам?

Например, я пытаюсь сгруппировать строки о программировании с другими строками о программировании, строки о физике с другими строками о физике и т. Д. По широкому кругу тем. Несмотря на вопиющий теоретический лингвистический аспект проблемы, я собираюсь сделать это с помощью программирования /...

9
Зачем добавлять один в частоте обратного документа?

Мой учебник перечисляет idf как гдел о г( 1 + NNT)log(1+Nnt)log(1+\frac{N}{n_t}) : количество документовNNN : количество документов, содержащих термин tNTntn_tttt Википедия перечисляет эту формулу в виде сглаженной версии фактического . Это один Я понимаю: она колеблется...

9
Понимание разложения по сингулярным значениям в контексте LSI

Мой вопрос, как правило, касается разложения по сингулярным значениям (SVD) и, в частности, латентного семантического индексирования (LSI). Скажем, у меня есть который содержит частоты 5 слов для 7 документов.Aш о г д× до с у м е н тAword×document A_{word \times document} A =...

9
Использование инструментов анализа текста / естественного языка для эконометрики

Я не уверен, является ли этот вопрос полностью уместным здесь, если нет, пожалуйста, удалите. Я аспирант по экономике. Для проекта, который исследует проблемы социального страхования, у меня есть доступ к большому количеству отчетов об административных делах (> 200 тыс.), Которые касаются оценки...

9
Какая модель глубокого обучения может классифицировать категории, которые не являются взаимоисключающими

Примеры: у меня есть предложение в должностной инструкции: «Старший инженер Java в Великобритании». Я хочу использовать модель глубокого обучения, чтобы предсказать ее как 2 категории: English и IT jobs. Если я использую традиционную классификационную модель, она может предсказать только 1 метку с...

9
Коэффициент логарифмического правдоподобия при суммировании документов

Первоначально я спросил это о переполнении стека и был передан на этот сайт, так что здесь идет: Я внедряю некоторые неконтролируемые методы обобщения документов на основе выбора контента / извлечения, и меня смущает то, что в моем учебнике называется «логарифмическое отношение правдоподобия»....

8
Разница между наивными байесовскими и рекуррентными нейронными сетями (LSTM)

Я хочу провести анализ настроений над текстом, прочитал несколько статей, некоторые из них используют «Наивный байесовский», а другие - «Рекуррентную нейронную сеть (LSTM)» , с другой стороны, я видел библиотеку python для анализа настроений, которая это нлтк. Он использует "Наивный байесовский",...