Вопросы с тегом «word2vec»

39

LDA против word2vec

Я пытаюсь понять, в чем сходство скрытого распределения Дирихле и word2vec для вычисления сходства слов. Как я понимаю, LDA отображает слова в вектор вероятностей скрытых тем, в то время как word2vec отображает их в вектор действительных чисел (относительно разложения по сингулярным точкам...

38

Должен ли я нормализовать векторы слов word2vec перед их использованием?

После обучения векторов слов с помощью word2vec, лучше ли их нормализовать, прежде чем использовать их для некоторых последующих приложений? Т.е. каковы плюсы / минусы их...

natural-language word2vec word-embeddings

38

Применить вложения слов ко всему документу, чтобы получить вектор объектов

Как использовать вложение слов для сопоставления документа с вектором объектов, подходящим для использования с контролируемым обучением? Слово вложение отображает каждое слово к вектору , где некоторые не слишком большое количество (например, 500). Популярные вложения слова включают в себя word2vec...

classification natural-language supervised-learning word2vec word-embeddings

29

R: Случайный лес, выбрасывающий NaN / Inf в ошибке «вызова сторонней функции», несмотря на отсутствие NaN в наборе данных [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 2 года назад . Я использую каретку, чтобы запустить перекрестный проверенный случайный лес по набору данных. Переменная...

r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

19

Почему скип-грамм лучше для редких слов, чем CBOW?

Интересно, почему skip-грамм лучше для редких слов, чем CBOW в word2vec. Я прочитал претензию на странице https://code.google.com/p/word2vec/

natural-language word2vec word-embeddings

19

Как работает отрицательная выборка в word2vec?

Я изо всех сил пытался понять концепцию отрицательной выборки в контексте word2vec. Я не могу переварить идею [отрицательной] выборки. Например, в работах Миколова отрицательное ожидание выборки формулируется как журналσ( ⟨ Ш , с ⟩ ) + K ⋅ EсN∼ PD[ журналσ( - ⟨ ш , грN⟩ ) ]...

machine-learning word2vec word-embeddings

17

Интерпретация отрицательного косинуса сходства

Мой вопрос может быть глупым. Поэтому я заранее извинюсь. Я пытался использовать модель GLOVE, предварительно подготовленную группой Stanford NLP ( ссылка ). Тем не менее, я заметил, что мои результаты сходства показали некоторые отрицательные числа. Это сразу же побудило меня взглянуть на файл...

machine-learning word2vec cosine-similarity

13

Как рассчитывается метод сходства в SpaCy?

Не уверен, что это правильный сайт стека, но здесь идет. Как работает метод .similiarity? Wow spaCy это здорово! Его модель tfidf может быть проще, но w2v только с одной строкой кода ?! В своем 10-строчном уроке по spaCy andrazhribernik показывает нам метод сходства, который можно использовать для...

natural-language word2vec tf-idf nltk

12

Почему иерархический софтмакс лучше для нечастых слов, а отрицательная выборка лучше для частых слов?

Интересно, почему иерархический софтмакс лучше подходит для нечастых слов, а отрицательная выборка лучше для частых слов в моделях CBOW и skip-грамм word2vec. Я прочитал претензию на https://code.google.com/p/word2vec/...

natural-language word2vec word-embeddings softmax

11

Алгоритмы встраивания слов с точки зрения производительности

Я пытаюсь вставить примерно 60 миллионов фраз в векторное пространство , а затем вычислить косинусное сходство между ними. Я использовал sklearn CountVectorizerс пользовательской функцией токенизатора, которая создает униграммы и биграммы. Оказывается, чтобы получить осмысленное представление, мне...

machine-learning natural-language word2vec word-embeddings cosine-similarity

11

Как модель скип-граммы Word2Vec генерирует выходные векторы?

У меня проблемы с пониманием скип-грамматической модели алгоритма Word2Vec. В непрерывном пакете слов легко увидеть, как контекстные слова могут «вписаться» в нейронную сеть, поскольку вы в основном усредняете их после умножения каждого из представлений кодирования с одним горячим кодированием на...

neural-networks deep-learning natural-language word2vec word-embeddings

11

Обработка неизвестных слов в задачах моделирования языка с использованием LSTM

Для задачи обработки естественного языка (NLP) часто используют векторы word2vec в качестве вложения для слов. Тем не менее, может быть много неизвестных слов, которые не перехвачены векторами word2vec просто потому, что эти слова не видны достаточно часто в обучающих данных (многие реализации...

natural-language word2vec lstm word-embeddings

11

Как определить параметры для t-SNE для уменьшения размеров?

Я очень плохо знаком с встраиванием слов. Я хочу визуализировать, как документы выглядят после обучения. Я читал, что t-SNE - это подход к этому. У меня есть 100K документов с 250 размерами в качестве размера вложения. Также доступно несколько пакетов. Однако, для t-SNE, я не знаю, сколько...

pca dimensionality-reduction word2vec word-embeddings tsne

10

Производная перекрестной потери энтропии в word2vec

Я пытаюсь проработать первый набор проблем из материала онлайн-курса cs224d в Стэнфорде, и у меня возникли некоторые проблемы с проблемой 3A: При использовании модели пропуска грамм word2vec с функцией прогнозирования softmax и функцией кросс-энтропийной потери мы хочу вычислить градиенты по...

machine-learning self-study word2vec

9

Градиенты для скипграмм word2vec

Я изучаю проблемы письменных заданий в классе глубокого обучения Стэнфордского НЛП http://cs224d.stanford.edu/assignment1/assignment1_soln Я пытаюсь понять ответ для 3а, где они ищут производную от вектора для центрального слова. Предположим, вам дан вектор предсказанного слова соответствующий...

self-study neural-networks backpropagation word2vec