Мой вопрос может быть глупым. Поэтому я заранее извинюсь.
Я пытался использовать модель GLOVE, предварительно подготовленную группой Stanford NLP ( ссылка ). Тем не менее, я заметил, что мои результаты сходства показали некоторые отрицательные числа.
Это сразу же побудило меня взглянуть на файл словесных векторных данных. По-видимому, значения в словах векторов было разрешено быть отрицательными. Это объясняет, почему я увидел отрицательное косинусное сходство.
Я привык к понятию косинусного подобия частотных векторов, значения которых ограничены в [0, 1]. Я точно знаю, что скалярное произведение и функция косинуса могут быть положительными или отрицательными, в зависимости от угла между векторами. Но мне действительно трудно понять и интерпретировать это отрицательное косинусное сходство.
Например, если у меня есть пара слов, дающая сходство -0,1, они менее похожи, чем другая пара, чье сходство составляет 0,05? Как насчет сравнения сходства от -0,9 до 0,8?
Или я должен просто посмотреть на абсолютное значение минимальной разности углов от ? Абсолютное значение баллов?
Огромное спасибо.
An angular-type similarity coefficient between two vectors. It is like correlation, only without centering the vectors.
единственное различие между ними состоит в том, что в корреляционных отклонениях (моментах), которые умножаются перекрестно, они являются от среднего значения, в то время как в косинусах отклонения от первоначального 0, то есть они являются значениями, как они есть ,Ответы:
Пусть два вектора и , угол получается скалярным произведением и нормой векторов:a b θ
Поскольку значение находится в диапазоне :cos(θ) [−1,1]
Пример : пусть два пользователя и , а также сходство между этими двумя пользователями в зависимости от их вкуса к фильмам:U1 U2 sim(U1,U2)
источник
Не используйте абсолютные значения, так как отрицательный знак не является произвольным. Чтобы получить значение косинуса от 0 до 1, вы должны использовать следующую функцию косинуса:
(Код R)
(Код Python)
источник
Косинусное сходство похоже на корреляцию Пирсона, но не вычитает средства. Таким образом, вы можете сравнить относительную силу сходства 2 косинусов, посмотрев на абсолютные значения, так же, как вы бы сравнили абсолютные значения 2 корреляций Пирсона.
источник
Правильно, что косинусное сходство между частотными векторами не может быть отрицательным, так как количество слов не может быть отрицательным, но с встраиванием слов (например, в перчатку) вы можете иметь отрицательные значения.
Упрощенное представление конструкции встраивания в Word выглядит следующим образом: вы присваиваете каждое слово случайному вектору в R ^ d. Затем запустите оптимизатор, который попытается подтолкнуть два одинаковых вектора v1 и v2 близко друг к другу или направить два разнородных вектора v3 и v4 дальше друг от друга (согласно некоторому расстоянию, скажем, косинусу). Вы выполняете эту оптимизацию для достаточного количества итераций, и, в конце концов, у вас есть вложения слов с единственным критерием, что у похожих слов есть более близкие векторы, а разнородные векторы находятся дальше друг от друга. Конечный результат может привести к тому, что некоторые значения измерений будут отрицательными, а некоторые пары будут иметь отрицательное косинусное сходство - просто потому, что процесс оптимизации не заботился об этом критерии. Это могло бы подтолкнуть некоторые векторы в отрицательные значения. Размеры векторов не соответствуют количеству слов,
источник