При сопоставлении пациентов на основе демографических данных существуют ли какие-либо рекомендации относительно того, какие поля должны совпадать, чтобы пациент был «тем же пациентом»?
Я знаю, что алгоритмы будут разными для разных реализаций, мне просто любопытно, есть ли лучшие практики или рекомендации по этому процессу.
First Name
Last Name
Date of Birth
SSN
Address
City
State
Zip
так далее?
Ответы:
Это замечательное эссе (на испанском языке, извините), написанное Пабло Пазосом, инженером CS из Уругвая, который работает в сфере здравоохранения с 2006 года и внес большой вклад в эту область, в которой он описывает алгоритм для этого.
Вы можете пропустить статью через переводчика, но суть в том, что основная информация для определения личности человека - это его имя и фамилия (от отца и матери), пол и дата рождения. Интересно, что он специально исключает номера идентификаторов, такие как SSN, из своих алгоритмов сопоставления идентификаторов, поскольку «любой вид идентификатора НЕ является частью его идентификатора» (хотя, я думаю, этот вопрос может быть спорным). Кроме того, он исключает такие атрибуты, как адрес улицы, номера телефонов и т. Д., Поскольку они на самом деле не связаны с личностью кого-либо, они не связаны с тем, «кем на самом деле является кто-то».
Кроме того, он присваивает разные «веса» каждому из предыдущих атрибутов, например:
С совпадениями, найденными по каждому из этих атрибутов, он описывает методологию для получения составного «индекса соответствия совпадений», с которым могут быть возможны сравнения между записями. Кроме того, «частичное» совпадение атрибутов имени возможно при использовании таких алгоритмов, как расстояние Левенштейна .
Хорошо читаю, ИМО. Извините, но по-испански, но я надеюсь, что смог донести его основные идеи.
источник
Единого магического алгоритма для подбора пациентов не существует, и я сомневаюсь, что он когда-либо будет.
Для начала есть региональные различия. Как отметил М. М. Маттоли, то, что хорошо работает в городской больнице Соединенных Штатов, вероятно, не очень хорошо вписывается в сельскую австралийскую клинику по лечению аборигенов.
Также отдельные сайты имеют разные взгляды на отказоустойчивость. Если бы вы соответствовали только тогда, когда были абсолютно уверены , вы получите много пропущенных матчей. Это приводит к дублированию записей о пациентах, что создает целый ряд других проблем. Большинство сайтов готовы согласиться с уверенностью , но насколько уверен, конечно? Спросите 10 человек, и вы получите 12 ответов.
Поэтому «лучший» алгоритм будет настраиваемым, поэтому ваши клиенты смогут настроить его под свои нужды.
При рассмотрении совпадения разные поля дают разную степень достоверности.
Специфичные для здравоохранения идентификаторы дают наибольшую уверенность, поскольку их единственная цель - уникально идентифицировать человека в системе здравоохранения. Больницы, как правило, прилагают усилия, чтобы избежать дублирования.
Примеры:
Другие идентификаторы пациентов также могут обеспечивать высокую степень достоверности, в зависимости от системы. Например, военный билет, вероятно, очень актуален в военном госпитале.
Примеры:
При отсутствии уникальных идентификаторов нужно прибегать к демографической информации. Не рекомендуется проводить матч на каком-либо одном поле, но чем больше демографическое совпадение, тем более уверенным является матч.
Вещи о человеке, которые не часто меняются, хороши для сопоставления:
Но в матче можно учесть еще более ковкую информацию:
источник
Также стоит проверить предыдущие фамилии, так как они часто меняются.
источник
Помимо очевидных комбинаций следующих трех, приведенных в вашем вопросе
Я бы подумал добавить
phone number (Home and/or Cell)
в список. В наши дни это довольно распространено, и у каждого будет свой уникальный номер, и даже если несколько раз люди меняют свои номера телефонов, большинство людей запоминают старые номера, так что это может пригодиться.Мы обнаружили, что адрес часто страдает от нескольких вариантов написания и нескольких способов рендеринга, особенно в таких странах, как Индия, где люди используют местный язык, а программы для управления пациентами все еще используют английский.
источник
Пол в записях, кажется, часто происходит от имени. Я видел увеличение различий в полу для иностранцев, когда мы не можем определить пол по имени.
В Германии у нас есть еще несколько вариантов с именами, содержащими «Umlaute», например «äöü», которые иногда заменяются на «ae oe ue».
источник
Моя мысль в порядке, как показано ниже 1). SSN, Фамилия и первые 5 символов имени 2). SSN, дата рождения и первые 5 символов имени 3). SSN, дата рождения и фамилия 4). SSN, Пол, Дата рождения 5). Фамилия, первые 5 символов имени, города и почтового индекса
источник
Это действительно сложная проблема в США. Имена не уникальны и часто меняются в течение жизни человека или представлены по-разному (например, Роб против Роберта), поэтому их никогда нельзя использовать для идентификации пациента, кроме как в сочетании с некоторой более достоверной информацией. Номер медицинского страхования и поставщик услуг меняются гораздо чаще и могут быть одинаковыми для нескольких членов семьи. SSN предположительно уникален, но вокруг него есть мошенничество. То же самое с номером водительского номера, который, конечно, не у всех.
Лично я бы начал с номера страхового полиса и даты рождения и сочетания имени, затем ssn и даты рождения и сочетания имени. Я бы проверил адрес и телефон, чтобы дать мне дополнительную уверенность, когда они совпадают, но не большой вес, если они этого не делают. Кроме того, я бы использовал группу крови как фактор исключения, если он известен (и мы все знаем, что вампиры будут брать образцы крови), поскольку это не изменится. Соответствие имени должно быть нечетким из-за проблемы с изменением имени. Другие вещи, как правило, должны искать точное совпадение в первую очередь в случае нечеткого совпадения, если достоверность имени действительно высока (это могла быть опечатка при входе в SSN).
источник