Жакард Сходство дается
sij=pp+q+r
где,
p = количество положительных атрибутов для обоих объектов
q = количество атрибутов 1 для i и 0 для j
r = количество атрибутов 0 для i и 1 для j
Принимая во внимание, что косинусное сходство = A⋅B∥A∥∥B∥ где A и B - векторы объектов.
Проще говоря, в косинусном сходстве количество общих атрибутов делится на общее количество возможных атрибутов. Принимая во внимание, что в Жаккарде Сходство количество общих атрибутов делится на количество атрибутов, которые существуют по крайней мере в одном из двух объектов.
И есть много других мер сходства, каждый со своими эксцентриситетами. Принимая решение о том, какой из них использовать, попробуйте подумать о нескольких типичных случаях и определите, какой индекс даст наиболее полезные результаты для достижения вашей цели.
Индекс косинуса можно использовать для выявления плагиата, но он не будет хорошим показателем для определения зеркальных сайтов в Интернете. Принимая во внимание, что индекс Jaccard, будет хорошим индексом для идентификации зеркальных сайтов, но не настолько хорош для выявления плагиата копийных макарон (в более крупном документе).
Применяя эти индексы, вы должны тщательно продумать свою проблему и выяснить, как определить сходство. Если у вас есть определение, вы можете пойти по магазинам для индекса.
Редактировать:
Ранее у меня был пример, включенный в этот ответ, который в конечном итоге был неверным. Благодаря нескольким пользователям, которые указали на это, я удалил ошибочный пример.
cosine_similarity(10*[1]+90*[0], 10*[1]+90*[0])
. Конечно, косинусное сходство здесь также будет равно 1, так как обе меры игнорируют те элементы, которые равны нулю в обоих векторах.Я не могу комментировать, потому что у меня нет статуса, но проверенный ответ неверен, а также не отвечает на вопрос. «A» означает L2-норму A, то есть длину вектора в евклидовом пространстве, а не размерность вектора A. Другими словами, вы не учитываете 0 битов, вы складываете 1 биты и берете квадратный корень. Так что пример 10 атрибутов вектора длиной 100 тоже неверен. Извините, у меня нет реального ответа относительно того, когда вы должны использовать какую метрику, но я не могу просто оставить неверный ответ без ответа.
источник
Сходство Жакара используется для двух типов двоичных случаев:
Косинусное сходство обычно используется в контексте интеллектуального анализа текста для сравнения документов или электронных писем. Если косинусное сходство между двумя векторами терминов документа выше, то в обоих документах больше общего количества слов
Другое отличие состоит в том, что 1 - коэффициент Жакарда можно использовать как меру несходства или расстояния, тогда как косинусное подобие не имеет таких конструкций. Похожая вещь - это расстояние Тонимото, которое используется в таксономии.
источник
cosine
это другая, но не недействительная мера.Как отмечено выше, проверенный ответ неверен.
Некоторые сравнения:
У меня пока нет ясного представления о том, где следует отдавать предпочтение одному, а не тому, что, как отметил Викрам Венкат, 1 - Жаккард соответствует истинной метрике, в отличие от косинуса; и косинус естественным образом распространяется на вещественные векторы.
источник