У меня есть группа из n наборов, для которых мне нужно вычислить значение типа «уникальность» или «сходство». Я остановился на индексе Жакара как на подходящей метрике. К сожалению, индекс Жакара работает только с двумя наборами одновременно. Для того чтобы вычислить сходство между всеми множествами, потребуется порядка n 2 вычислений Жакара.
(Если это помогает, обычно составляет от 10 до 10000, и каждый набор содержит в среднем 500 элементов. Кроме того, в конце концов, мне все равно, насколько похожи какие-либо два конкретных набора - скорее, меня интересует только какое внутреннее сходство всей группы множеств есть. (Другими словами, среднее (или, по крайней мере, достаточно точное приближение среднего) всех индексов Жакара в группе))
Два вопроса:
- Есть ли способ по-прежнему использовать индекс Jaccard без сложности ?
- Есть ли лучший способ вычислить сходство / уникальность набора для группы наборов, чем тот, который я предложил выше?
источник
Ответы:
Можно было бы использовать Схему подписи [1], фильтрацию по размеру : схему, которая использует информацию о размере, чтобы уменьшить количество пар наборов, которые необходимо учитывать.
Они также экспериментируют с взвешенной формой; где веса основаны на IDF.
[1] Арасу, Арвинд, Венкатеш Ганти и Рагхав Каушик. «Эффективное соединение точного набора-подобия». В материалах 32-й Международной конференции по базам данных очень больших размеров, 918–929. VLDB '06. Фонд VLDB, 2006
источник
Другой вариант - использовать локальную чувствительность к хешированию вики-ссылки . Я видел, как Ву и Цзоу использовали его для обнаружения сходства в сообществе ( метод инкрементального обнаружения сообщества для систем социальных тегов, использующих хеширование с учетом локальных особенностей , Neural Networks 58: 14–28; ACM DL ), который в основном обнаруживает сходство между целым числом или наборы строк.
источник