Идентичный смысл, что он будет производить идентичные результаты для ранжирования сходства между вектором ¯u и набором векторами V .
У меня есть модель векторного пространства, в которой в качестве параметров используется мера расстояния (евклидово расстояние, косинусное сходство) и метод нормализации (нет, l1, l2). Насколько я понимаю, результаты настроек [косинус, нет] должны быть идентичны или, по крайней мере, действительно очень похожи на [евклидово, l2], но это не так.
На самом деле есть хороший шанс, что система все еще глючит - или у меня есть что-то критическое неправильно в отношении векторов?
редактировать: я забыл упомянуть, что векторы основаны на количестве слов из документов в корпусе. Учитывая документ запроса (который я также преобразую в вектор подсчета слов), я хочу найти документ из моего корпуса, который наиболее похож на него.
Простой расчет их евклидова расстояния - прямая мера, но в той задаче, над которой я работаю, сходство по косинусу часто предпочитают в качестве индикатора сходства, потому что векторы, которые отличаются только по длине, по-прежнему считаются равными. Документ с наименьшим сходством расстояния / косинуса считается наиболее похожим.
Ответы:
Для -нормализованных векторов , мы имеем квадрат Евклида расстояние пропорционально косинусному расстоянию , То есть, даже если вы нормализуете свои данные и ваш алгоритм не зависит от масштабирования расстояний, вы все равно ожидаете различий из-за возведения в квадрат.х , у | | х | | 2 = | | у | | 2 = 1 , | | х - у | | 2 2ℓ2 х , у
источник
Стандартное косинусное подобие определяется в евклидовом пространстве следующим образом, предполагая векторы столбцов и : Это сводится к стандартному внутреннему произведению, если ваши векторы нормированы на единичную норму (в l2). В текстовом майнинге такого рода нормализация не является неслыханной, но я бы не стал считать это стандартом.V соз ( у , v ) = ⟨ U , V ⟩U v
источник