Приложения и различия для сходства Жакара и сходства косинусов

27

Сходство Жакара и косинусное сходство - два очень распространенных измерения при сравнении сходства предметов. Однако мне не очень понятно, в какой ситуации какой из них должен быть предпочтительнее другого.

Может ли кто-нибудь помочь прояснить различия этих двух измерений (различие в концепции или принципе, а не в определении или вычислении) и их предпочтительное применение?

shihpeng
источник

Ответы:

19

Жакард Сходство дается sij=pp+q+r

где,

p = количество положительных атрибутов для обоих объектов
q = количество атрибутов 1 для i и 0 для j
r = количество атрибутов 0 для i и 1 для j

Принимая во внимание, что косинусное сходство = ABAB где A и B - векторы объектов.

Проще говоря, в косинусном сходстве количество общих атрибутов делится на общее количество возможных атрибутов. Принимая во внимание, что в Жаккарде Сходство количество общих атрибутов делится на количество атрибутов, которые существуют по крайней мере в одном из двух объектов.

И есть много других мер сходства, каждый со своими эксцентриситетами. Принимая решение о том, какой из них использовать, попробуйте подумать о нескольких типичных случаях и определите, какой индекс даст наиболее полезные результаты для достижения вашей цели.

Индекс косинуса можно использовать для выявления плагиата, но он не будет хорошим показателем для определения зеркальных сайтов в Интернете. Принимая во внимание, что индекс Jaccard, будет хорошим индексом для идентификации зеркальных сайтов, но не настолько хорош для выявления плагиата копийных макарон (в более крупном документе).

Применяя эти индексы, вы должны тщательно продумать свою проблему и выяснить, как определить сходство. Если у вас есть определение, вы можете пойти по магазинам для индекса.

Редактировать: Ранее у меня был пример, включенный в этот ответ, который в конечном итоге был неверным. Благодаря нескольким пользователям, которые указали на это, я удалил ошибочный пример.

saq7
источник
2
Не могли бы вы объяснить, почему индекс Cosine лучше для выявления плагиата, а не для идентификации зеркальных сайтов?
dharm0us
Я чувствую, что некоторые части этого ответа не интуитивны. «Например, если у вас есть два объекта, каждый из которых имеет 10 атрибутов, из возможных 100 атрибутов. Кроме того, они имеют все 10 общих атрибутов. В этом случае индекс Жакара будет равен 1, а индекс косинуса - 0,001». Это будет переводить что-то вроде cosine_similarity(10*[1]+90*[0], 10*[1]+90*[0]). Конечно, косинусное сходство здесь также будет равно 1, так как обе меры игнорируют те элементы, которые равны нулю в обоих векторах.
Общество
1
Этот ответ неверен в отношении косинусного сходства, пожалуйста, примите во внимание ответ пользователя 18596
Робин,
«Проще говоря, в косинусном сходстве количество общих атрибутов делится на общее количество возможных атрибутов» -> это совершенно неверно. Обозначение определяет произведения и нормы векторной точки.
Шон Оуэн
23

Я не могу комментировать, потому что у меня нет статуса, но проверенный ответ неверен, а также не отвечает на вопрос. «A» означает L2-норму A, то есть длину вектора в евклидовом пространстве, а не размерность вектора A. Другими словами, вы не учитываете 0 битов, вы складываете 1 биты и берете квадратный корень. Так что пример 10 атрибутов вектора длиной 100 тоже неверен. Извините, у меня нет реального ответа относительно того, когда вы должны использовать какую метрику, но я не могу просто оставить неверный ответ без ответа.

user18596
источник
2
Ты совершенно прав. Обидно, что так много людей голосуют за неправильный ответ. Косинусное сходство, как описано в статье в Википедии, не учитывает 0 битов. en.wikipedia.org/wiki/Cosine_simility
neelshiv
11

Сходство Жакара используется для двух типов двоичных случаев:

  1. Симметричный, где 1 и 0 имеют одинаковое значение (пол, семейное положение и т. Д.)
  2. Асимметричный, где 1 и 0 имеют разные уровни важности (положительный результат теста на заболевание)

Косинусное сходство обычно используется в контексте интеллектуального анализа текста для сравнения документов или электронных писем. Если косинусное сходство между двумя векторами терминов документа выше, то в обоих документах больше общего количества слов

Другое отличие состоит в том, что 1 - коэффициент Жакарда можно использовать как меру несходства или расстояния, тогда как косинусное подобие не имеет таких конструкций. Похожая вещь - это расстояние Тонимото, которое используется в таксономии.

Викрам Венкат
источник
Почему только Жаккард может быть использован в качестве меры отличия? Насколько я понимаю, cosineэто другая, но не недействительная мера.
Джавадба
3

Как отмечено выше, проверенный ответ неверен.

abAB .

J(A,B)=|AB||AB|=|AB||AB|+|AB|+|BA|

C(A,B)=|AB||A||B|=|AB|(|AB|+|AB|)(|AB|+|BA|)

Некоторые сравнения:

  • Числители здесь одинаковые.
  • |A||B|в жаккарте, но геометрически в косинусе.
  • |A||B|

У меня пока нет ясного представления о том, где следует отдавать предпочтение одному, а не тому, что, как отметил Викрам Венкат, 1 - Жаккард соответствует истинной метрике, в отличие от косинуса; и косинус естественным образом распространяется на вещественные векторы.

joeln
источник