Вопросы с тегом «similarity»

34
Каковы некоторые стандартные способы вычисления расстояния между документами?

Когда я говорю «документ», я имею в виду веб-страницы, такие как статьи Википедии и новости. Я предпочитаю ответы, дающие либо ванильные лексические метрики расстояния, либо современные семантические метрики расстояния, с большим предпочтением к...

27
Приложения и различия для сходства Жакара и сходства косинусов

Сходство Жакара и косинусное сходство - два очень распространенных измерения при сравнении сходства предметов. Однако мне не очень понятно, в какой ситуации какой из них должен быть предпочтительнее другого. Может ли кто-нибудь помочь прояснить различия этих двух измерений (различие в концепции или...

18
Кластеризация на основе показателей сходства

Предположим , что мы имеем множество элементов Е и сходство ( не расстояние ) функция сим (е, Ej) между двумя элементами Ei, Ej ∈ E . Как мы можем (эффективно) кластеризовать элементы E , используя sim ? к -средних, например, требует заданных к , Навес Кластеризация требует два пороговых значений....

18
Лучший практический алгоритм для сходства предложений

У меня есть два предложения, S1 и S2, оба из которых имеют количество слов (обычно) ниже 15. Каковы наиболее практичные и успешные (машинное обучение) алгоритмы, которые, возможно, легко реализовать (нейронная сеть в порядке, если архитектура не такая сложная, как Google Inception и т. Д.). Я ищу...

16
сделать морскую карту тепла больше

Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера...

15
Предсказание сходства предложений

Я пытаюсь решить следующую проблему: у меня есть набор предложений в качестве моего набора данных, и я хочу иметь возможность набрать новое предложение и найти предложение, которое новое наиболее похоже в наборе данных. Пример будет выглядеть так: Новое предложение: " I opened a new mailbox"...

12
MinHashing vs SimHashing

Предположим, у меня есть пять наборов, которые я бы хотел сгруппировать. Я понимаю, что техника SimHashing описана здесь: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ может привести к трем кластерам ( {A}, {B,C,D}и {E}), например, если его результаты были: A ->...

12
Альтернативы TF-IDF и Cosine Similarity при сравнении документов разных форматов

Я работал над небольшим, личным проектом, который берет навыки работы пользователя и предлагает наиболее идеальную карьеру для них на основе этих навыков. Я использую базу данных списков вакансий для достижения этой цели. На данный момент код работает следующим образом: 1) Обработайте текст каждого...

10
Извлечь каноническую строку из списка шумных строк

У меня есть тысячи списков строк, и каждый список имеет около 10 строк. Большинство строк в данном списке очень похожи, хотя некоторые строки (редко) полностью не связаны с другими, а некоторые строки содержат нерелевантные слова. Их можно считать шумными вариациями канонической струны. Я ищу...

10
Модель векторного пространства косинус tf-idf для поиска похожих документов

Иметь корпус более миллиона документов Для данного документа нужно найти похожие документы с использованием косинуса, как в модели векторного пространства d1⋅d2/(||d1||||d2||)d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) Все tf были нормализованы с использованием увеличенной частоты,...