Какие минимальные критерии соответствия рекомендуются для надежного демографического сопоставления пациентов?

30

При сопоставлении пациентов на основе демографических данных существуют ли какие-либо рекомендации относительно того, какие поля должны совпадать, чтобы пациент был «тем же пациентом»?

Я знаю, что алгоритмы будут разными для разных реализаций, мне просто любопытно, есть ли лучшие практики или рекомендации по этому процессу.

First Name
Last Name
Date of Birth
SSN
Address
City
State
Zip

так далее?

ConcernedOfTunbridgeWells
источник
4
Вероятно, ответ на этот вопрос также может меняться в зависимости от конкретной страны или даже от этнических и культурных соображений. Например, имя человека может не быть хорошим идентификатором пациента для австралийских аборигенов (или ему следует придать меньший «вес» в их случае), поскольку они могут менять имя с течением времени. Австралийские аборигены, носящие то же имя, что и умерший, покидают его, потому что считают, что очень плохо носить одно и то же имя умершего человека. Нечто подобное происходит и в других культурах, где имя мертвых является табу. ссылка
4
Или другой пример из еще неопубликованного исследования: в филиппинских иммигрантах в США на десять самых распространенных фамилий приходится около 6% всех людей. Во вьетнамских иммигрантах они составляют ~ 60%. Имена у филиппинцев значительно лучше, чем у вьетнамцев. Я обязательно опубликую это исследование, как только оно будет доступно.
Просто чтобы уточнить: является ли основная цель сопоставить два набора записей?
При попытке сопоставления записей обязательно различайте силу совпадения («Боб» очень похож на «Боб») и количество возможных совпадений (есть много Бобов). Если две записи имеют одно и то же имя и других записей с таким именем нет , то, вероятно, это один и тот же человек, даже если адреса различаются. Если, конечно, у тебя большой корпус.
Джон на все руки

Ответы:

20

Это замечательное эссе (на испанском языке, извините), написанное Пабло Пазосом, инженером CS из Уругвая, который работает в сфере здравоохранения с 2006 года и внес большой вклад в эту область, в которой он описывает алгоритм для этого.

Вы можете пропустить статью через переводчика, но суть в том, что основная информация для определения личности человека - это его имя и фамилия (от отца и матери), пол и дата рождения. Интересно, что он специально исключает номера идентификаторов, такие как SSN, из своих алгоритмов сопоставления идентификаторов, поскольку «любой вид идентификатора НЕ является частью его идентификатора» (хотя, я думаю, этот вопрос может быть спорным). Кроме того, он исключает такие атрибуты, как адрес улицы, номера телефонов и т. Д., Поскольку они на самом деле не связаны с личностью кого-либо, они не связаны с тем, «кем на самом деле является кто-то».

Кроме того, он присваивает разные «веса» каждому из предыдущих атрибутов, например:

  • Имя: 17,5%
  • Отчество: 17,5%
  • Фамилия (отец): 17,5%
  • Фамилия (мать): 17,5%
  • Пол: 10%
  • ДОБ: 20%

С совпадениями, найденными по каждому из этих атрибутов, он описывает методологию для получения составного «индекса соответствия совпадений», с которым могут быть возможны сравнения между записями. Кроме того, «частичное» совпадение атрибутов имени возможно при использовании таких алгоритмов, как расстояние Левенштейна .

Хорошо читаю, ИМО. Извините, но по-испански, но я надеюсь, что смог донести его основные идеи.


источник
2
это здорово, спасибо +1 также за упоминание расстояния, поскольку опечатки довольно распространены, особенно в общинах с большим разнообразием культурного происхождения, как это часто бывает в Северной Америке. Тем не менее, большинство случаев, когда я должен выполнить, совпадает с областью возможных значений довольно ограничен. Таким образом, в этих случаях будет достаточно любого надежного критерия (например, номера медицинского страхования), который возвращает одно попадание в базу данных, если будет возвращено несколько записей, я, как правило, либо спрашиваю пользователя (если имеется), либо фильтрую с дополнительным критерием.
(... продолжение) Обратите внимание, что эти случаи хорошо подходят для локальной установки EMR в клинике или больнице, или RIS для отделения радиологии. В этих случаях клиент либо зарегистрирован в клинике или больнице, либо нет. Однако в случаях MPI это совершенно новая игра с мячом.
13

Единого магического алгоритма для подбора пациентов не существует, и я сомневаюсь, что он когда-либо будет.

Для начала есть региональные различия. Как отметил М. М. Маттоли, то, что хорошо работает в городской больнице Соединенных Штатов, вероятно, не очень хорошо вписывается в сельскую австралийскую клинику по лечению аборигенов.

Также отдельные сайты имеют разные взгляды на отказоустойчивость. Если бы вы соответствовали только тогда, когда были абсолютно уверены , вы получите много пропущенных матчей. Это приводит к дублированию записей о пациентах, что создает целый ряд других проблем. Большинство сайтов готовы согласиться с уверенностью , но насколько уверен, конечно? Спросите 10 человек, и вы получите 12 ответов.

Поэтому «лучший» алгоритм будет настраиваемым, поэтому ваши клиенты смогут настроить его под свои нужды.

При рассмотрении совпадения разные поля дают разную степень достоверности.

Специфичные для здравоохранения идентификаторы дают наибольшую уверенность, поскольку их единственная цель - уникально идентифицировать человека в системе здравоохранения. Больницы, как правило, прилагают усилия, чтобы избежать дублирования.

Примеры:

  • Национальный идентификатор здравоохранения (например, номер NHS Великобритании)
  • Назначенный больницей номер медицинской карты.

Другие идентификаторы пациентов также могут обеспечивать высокую степень достоверности, в зависимости от системы. Например, военный билет, вероятно, очень актуален в военном госпитале.

Примеры:

  • Военный билет
  • Страховой ID
  • Номер социального страхования (В США номер социального страхования обычно не считается высоконадежным совпадением из-за широко распространенного мошенничества со страховкой.)

При отсутствии уникальных идентификаторов нужно прибегать к демографической информации. Не рекомендуется проводить матч на каком-либо одном поле, но чем больше демографическое совпадение, тем более уверенным является матч.

Вещи о человеке, которые не часто меняются, хороши для сопоставления:

  • название
  • Пол
  • Дата рождения

Но в матче можно учесть еще более ковкую информацию:

  • Адрес
  • Номер телефона
  • Адрес электронной почты
Линн
источник
3
У SSN также есть некоторые очень строгие ограничения, например, в Канаде запрещено даже просить об этом, если вы не являетесь работодателем или банком (возможно, еще немного, я не юрист). В других местах, таких как Китай, они используют его практически для чего угодно, даже для покупки билетов на поезд в праздничные дни.
Смена имени распространена, если вы женщина. И два человека часто имеют одинаковые имена и даже живут в одном и том же месте (например, отец с сыном, названным в его честь).
HLGEM
@HLGEM: Совершенно верно, поэтому ни одно демографическое поле не должно использоваться для сопоставления. Но когда людям приходится прибегать к этому, более статичные поля (которые, тем не менее, иногда меняются) более надежны, чем альтернативные. Это не делает их хорошими, хотя.
Линн
7

Также стоит проверить предыдущие фамилии, так как они часто меняются.

Энди Джадсон
источник
+1 "часто" - это занижение. :) Это, безусловно, может иметь место для пациентов, которые не могут быть идентифицированы или не названы, новорожденных, неопознанных и так далее. Имена более сложны, но более значимы в среде с большим количеством транзакций.
4

Помимо очевидных комбинаций следующих трех, приведенных в вашем вопросе

First Name
Last Name
Date of Birth
City
State
ZIP/Pin Code

Я бы подумал добавить phone number (Home and/or Cell)в список. В наши дни это довольно распространено, и у каждого будет свой уникальный номер, и даже если несколько раз люди меняют свои номера телефонов, большинство людей запоминают старые номера, так что это может пригодиться.

Мы обнаружили, что адрес часто страдает от нескольких вариантов написания и нескольких способов рендеринга, особенно в таких странах, как Индия, где люди используют местный язык, а программы для управления пациентами все еще используют английский.

Jamess
источник
3

Пол в записях, кажется, часто происходит от имени. Я видел увеличение различий в полу для иностранцев, когда мы не можем определить пол по имени.

В Германии у нас есть еще несколько вариантов с именами, содержащими «Umlaute», например «äöü», которые иногда заменяются на «ae oe ue».

bernd_k
источник
1

Моя мысль в порядке, как показано ниже 1). SSN, Фамилия и первые 5 символов имени 2). SSN, дата рождения и первые 5 символов имени 3). SSN, дата рождения и фамилия 4). SSN, Пол, Дата рождения 5). Фамилия, первые 5 символов имени, города и почтового индекса


источник
1

Это действительно сложная проблема в США. Имена не уникальны и часто меняются в течение жизни человека или представлены по-разному (например, Роб против Роберта), поэтому их никогда нельзя использовать для идентификации пациента, кроме как в сочетании с некоторой более достоверной информацией. Номер медицинского страхования и поставщик услуг меняются гораздо чаще и могут быть одинаковыми для нескольких членов семьи. SSN предположительно уникален, но вокруг него есть мошенничество. То же самое с номером водительского номера, который, конечно, не у всех.

Лично я бы начал с номера страхового полиса и даты рождения и сочетания имени, затем ssn и даты рождения и сочетания имени. Я бы проверил адрес и телефон, чтобы дать мне дополнительную уверенность, когда они совпадают, но не большой вес, если они этого не делают. Кроме того, я бы использовал группу крови как фактор исключения, если он известен (и мы все знаем, что вампиры будут брать образцы крови), поскольку это не изменится. Соответствие имени должно быть нечетким из-за проблемы с изменением имени. Другие вещи, как правило, должны искать точное совпадение в первую очередь в случае нечеткого совпадения, если достоверность имени действительно высока (это могла быть опечатка при входе в SSN).

HLGEM
источник