Вопросы с тегом «word2vec»

word2vec - это двухслойная нейронная сеть для обработки текста. Он принимает слова на вход и соответственно выводит вектор. Он использует комбинацию Continuous Bag of Word и реализацию модели skipgram.

20
Как я могу получить меру семантического сходства слов?

Каков наилучший способ выяснить семантическое сходство слов? Word2Vec хорошо, но не идеально: # Using the 840B word Common Crawl GloVe vectors with gensim: # 'hot' is closer to 'cold' than 'warm' In [7]: model.similarity('hot', 'cold') Out[7]: 0.59720456121072973 In [8]: model.similarity('hot',...

18
Лучший практический алгоритм для сходства предложений

У меня есть два предложения, S1 и S2, оба из которых имеют количество слов (обычно) ниже 15. Каковы наиболее практичные и успешные (машинное обучение) алгоритмы, которые, возможно, легко реализовать (нейронная сеть в порядке, если архитектура не такая сложная, как Google Inception и т. Д.). Я ищу...

17
Doc2Vec - Как пометить абзацы (gensim)

Мне интересно, как пометить (пометить) предложения / абзацы / документы с помощью doc2vec в gensim - с практической точки зрения. Вам нужно иметь каждое предложение / абзац / документ со своей уникальной меткой (например, «Sent_123»)? Это кажется полезным, если вы хотите сказать «какие слова или...

16
сделать морскую карту тепла больше

Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера...

14
Количество эпох в реализации Gensim Word2Vec

В реализации Word2Vec есть iterпараметрgensim класс gensim.models.word2vec.Word2Vec (предложения = нет, размер = 100, альфа = 0,025, окно = 5, min_count = 5, max_vocab_size = нет, образец = 0, семя = 1, рабочие = 1, min_alpha = 0,0001, сг. = 1, hs = 1, отрицательный = 0, cbow_mean = 0, hashfxn =,...

14
Как инициализировать новую модель word2vec с предварительно подготовленными весами модели?

Я использую Gensim Library в Python для использования и обучения модели word2vector. Недавно я смотрел на инициализацию весов моей модели с помощью некоторой предварительно обученной модели word2vec, такой как (предварительно обученная модель GoogleNewDataset). Я боролся с этим пару недель. Теперь...

13
Можем ли мы извлечь выгоду из использования трансферного обучения при обучении моделям word2vec?

Я ищу, чтобы найти предварительно обученные веса уже обученных моделей, таких как данные Новостей Google и т. Д. Мне было трудно обучать новую модель с достаточным количеством данных (10 ГБ и т. Д.) Для себя. Итак, я хочу извлечь выгоду из трансферного обучения, в котором я смог бы получить...

11
Классификация документов с использованием сверточной нейронной сети

Я пытаюсь использовать CNN (сверточная нейронная сеть) для классификации документов. CNN для коротких текстовых / предложений было изучено во многих работах. Тем не менее, кажется, что ни один документ не использовал CNN для длинного текста или документа. Моя проблема заключается в том , что...

10
Являются ли Word2Vec и Doc2Vec распределенным представлением или распределенным представлением?

Я читал, что представление о распределении основано на гипотезе о том, что слова, встречающиеся в сходном контексте, имеют сходное значение. Word2Vec и Doc2Vec оба смоделированы в соответствии с этой гипотезой. Но в оригинальной статье даже они названы как Distributed representation of words and...

10
Что такое матрица функций в word2vec?

Я новичок в нейронных сетях, и в настоящее время я изучаю модель word2vec. Однако мне трудно понять, что такое матрица функций. Я могу понять, что первая матрица является горячим вектором кодирования для данного слова, но что означает вторая матрица? Более конкретно, что означает каждое из этих...

9
Особенности словосочетаний в word2vec

Я пытаюсь сделать анализ настроения. Чтобы преобразовать слова в слова, я использую модель word2vec. Предположим, у меня есть все предложения в списке под названием «предложения», и я передаю эти предложения в word2vec следующим образом: model = word2vec.Word2Vec(sentences, workers=4 ,...