Вопросы с тегом «record-linkage»

13
Современное состояние дедупликации

Каковы современные методы дедупликации записей? Дедупликацию также иногда называют: связывание записи, разрешение объекта, разрешение идентификатора, объединение / очистка. Я знаю, например, о CBLOCK [1]. Я был бы признателен, если бы ответы также включали ссылки на существующее программное...

9
Использование алгоритма EM для связывания записей

Мне интересно связать записи между двумя наборами данных по имени, фамилии и году рождения. Можно ли это сделать с помощью алгоритма EM, и если да, то как? В качестве примера рассмотрим следующую запись в 1-м: Карл Маккарти, 1967. Я буду искать по всем записям во втором наборе данных и назначать...