Вопросы с тегом «word-embeddings»

Встраивание слов - это собирательное название для набора методов языкового моделирования и изучения особенностей в НЛП, где слова сопоставляются с векторами действительных чисел в низкоразмерном пространстве относительно размера словаря.

32
Интуитивно понятное объяснение потери шумовой контрастной оценки (NCE)?

Я читал о NCE (форма выборки кандидатов) из этих двух источников: Тензор потока записи Оригинальная бумага Может ли кто-нибудь помочь мне со следующим: Простое объяснение того, как работает NCE (я обнаружил, что вышеизложенное трудно разобрать и понять, поэтому что-то интуитивное, что приводит к...

22
Что является лучшим входом для Word2Vec?

Это больше похоже на общий вопрос НЛП. Что является подходящим входом для обучения встраивания слова, а именно Word2Vec? Должны ли все предложения, принадлежащие статье, быть отдельным документом в корпусе? Или каждая статья должна быть документом в указанном корпусе? Это просто пример...

20
Предсказание слова с использованием модели Word2vec

Принимая во внимание предложение: «Когда я открываю ?? дверь он начинает нагрев автоматически» Я хотел бы получить список возможных слов в ?? с вероятностью. Основная концепция, используемая в модели word2vec, заключается в том, чтобы «предсказать» слово в заданном окружающем контексте. Как только...

20
Как я могу получить меру семантического сходства слов?

Каков наилучший способ выяснить семантическое сходство слов? Word2Vec хорошо, но не идеально: # Using the 840B word Common Crawl GloVe vectors with gensim: # 'hot' is closer to 'cold' than 'warm' In [7]: model.similarity('hot', 'cold') Out[7]: 0.59720456121072973 In [8]: model.similarity('hot',...

17
Doc2Vec - Как пометить абзацы (gensim)

Мне интересно, как пометить (пометить) предложения / абзацы / документы с помощью doc2vec в gensim - с практической точки зрения. Вам нужно иметь каждое предложение / абзац / документ со своей уникальной меткой (например, «Sent_123»)? Это кажется полезным, если вы хотите сказать «какие слова или...

16
сделать морскую карту тепла больше

Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера...

14
Как инициализировать новую модель word2vec с предварительно подготовленными весами модели?

Я использую Gensim Library в Python для использования и обучения модели word2vector. Недавно я смотрел на инициализацию весов моей модели с помощью некоторой предварительно обученной модели word2vec, такой как (предварительно обученная модель GoogleNewDataset). Я боролся с этим пару недель. Теперь...

11
Как word2vec может быть использован для выявления невидимых слов и соотнести их с уже подготовленными данными

Я работал на word2vec gensim модели и нашел, что это действительно интересно. Меня интересует, как неизвестное / невидимое слово при проверке с моделью сможет получить аналогичные термины от обученной модели. Это возможно? Может word2vec быть переделаны для этого? Или учебный корпус должен иметь...

11
Существуют ли хорошие готовые языковые модели для Python?

Я создаю прототип приложения и мне нужна языковая модель для вычисления недоумения в некоторых сгенерированных предложениях. Есть ли в Python обученная языковая модель, которую я могу легко использовать? Что-то простое, как model = LanguageModel('en') p1 = model.perplexity('This is a well...

10
Сколько учебных данных нужно word2vec?

Я хотел бы сравнить разницу между одним и тем же словом, упомянутым в разных источниках. То есть, чем отличаются авторы в использовании плохо определенных слов, таких как «демократия». Краткий план был Возьмите книги с упоминанием термина «демократия» как простой текст В каждой книге заменить...

10
Text-Classification-Problem: Word2Vec / NN - лучший подход?

Я рассчитываю разработать систему, которая с учетом абзаца текста сможет классифицировать его и определить контекст: Обучается с пользовательскими текстовыми параграфами (например, комментарии / вопросы / ответы) Каждый элемент в обучающем наборе будет помечен. Так, например, («категория 1»,...

10
Являются ли Word2Vec и Doc2Vec распределенным представлением или распределенным представлением?

Я читал, что представление о распределении основано на гипотезе о том, что слова, встречающиеся в сходном контексте, имеют сходное значение. Word2Vec и Doc2Vec оба смоделированы в соответствии с этой гипотезой. Но в оригинальной статье даже они названы как Distributed representation of words and...

9
Особенности словосочетаний в word2vec

Я пытаюсь сделать анализ настроения. Чтобы преобразовать слова в слова, я использую модель word2vec. Предположим, у меня есть все предложения в списке под названием «предложения», и я передаю эти предложения в word2vec следующим образом: model = word2vec.Word2Vec(sentences, workers=4 ,...