Предсказание следующего состояния здоровья из прошлых условий в данных претензий

12

В настоящее время я работаю с большим количеством данных о страховых случаях, включая некоторые лабораторные и аптечные претензии. Однако наиболее согласованная информация в наборе данных состоит из диагноза (ICD-9CM) и кодов процедур (CPT, HCSPCS, ICD-9CM).

Мои цели:

  1. Выявить наиболее влиятельные исходные состояния (сопутствующие заболевания) для такого заболевания, как хроническое заболевание почек;
  2. Определите вероятность (или вероятность) того, что у пациента разовьется заболевание, основываясь на состояниях, которые у него были в прошлом;
  3. Сделайте так же, как 1 и 2, но с процедурами и / или диагнозами.
  4. Желательно, чтобы результаты были интерпретированы врачом

Я смотрел на такие вещи, как документы о важности Премии Здоровья Наследия, и многому научился у них, но они сосредоточены на прогнозировании госпитализаций.

Итак, вот мои вопросы: Как вы думаете, какие методы хорошо подходят для подобных проблем? И какие ресурсы были бы наиболее полезны для изучения приложений и методов науки о данных, относящихся к здравоохранению и клинической медицине?

РЕДАКТИРОВАТЬ # 2, чтобы добавить текстовую таблицу:

ХБП является целевым состоянием, «хроническое заболевание почек», «.any» означает, что они приобрели это состояние в любое время, «.isbefore.ckd» означает, что у них было это состояние до первого диагноза ХБП. Другие аббревиатуры соответствуют другим условиям, указанным в кодовых группах ICD-9CM. Эта группировка происходит в SQL во время процесса импорта. Каждая переменная, за исключением Patient_age, является двоичной.

Джейми
источник
1
Можете ли вы привести пример данных (на простом английском, без кодов)?
друг
Я добавил несколько примеров данных в свой оригинальный пост. В этой версии каждое условие обозначается трехбуквенным кодом.
Джейми
1
R круто, но не очень читабельно. Не могли бы вы переформатировать образец ваших данных в виде таблицы (например, используя формат CSV или TSV; 5-6 столбцов в порядке)? Кроме того, некоторые объяснения переменных (что на самом деле означают «warn.any», «flu.isbefore.ckd» и т. Д. И что следует прогнозировать) очень помогут.
друг
1
Можете ли вы предоставить больше информации о параметрах, используемых в наборе данных, чтобы мы могли понять, есть ли какие-либо корреляции. Некоторые из упомянутых вами аббревиатур мне не понятны. Было бы здорово, если бы вы могли поделиться своим адресом электронной почты, чтобы мы могли сотрудничать в автономном режиме. Благодарность!
JohnGalt
1
Это только немного связано, но наша последняя задача в области науки о данных касалась прогнозирования претензий из других претензий. cloudera.com/content/cloudera/en/training/certification/ccp-ds/… Когда решение будет выпущено, оно может содержать несколько интересных идей.
Шон Оуэн

Ответы:

7

Я никогда не работал с медицинскими данными, но из общих соображений я бы сказал, что отношения между переменными в здравоохранении довольно сложны. Различные модели, такие как случайные леса, регрессия и т. Д., Могут охватывать только часть отношений и игнорировать другие. В таких обстоятельствах имеет смысл использовать общие статистические исследования и моделирование .

Например, самое первое, что я хотел бы сделать, это выяснить корреляции между возможными условиями предшественника и диагнозами. Например, в каком проценте случаев хроническому заболеванию почек предшествовал длительный грипп? Если оно высокое, это не всегда означает причинность , но дает довольно хорошую пищу для размышлений и помогает лучше понять отношения между различными условиями.

Другим важным шагом является визуализация данных. Встречается ли ХБП у мужчин чаще, чем у женщин? Как насчет их места жительства? Каково распределение случаев ХБП по возрасту? Трудно представить большой набор данных в виде набора чисел, а их построение значительно облегчает задачу.

Когда у вас есть представление о том, что происходит, выполните проверку гипотез, чтобы проверить свои предположения. Если вы отвергаете нулевую гипотезу (основное предположение) в пользу альтернативной, поздравляю, вы сделали «нечто реальное».

Наконец, когда у вас есть хорошее понимание ваших данных, попробуйте создать полную модель . Это может быть что-то общее, например, PGM (например, созданная вручную байесовская сеть), или что-то более конкретное, например, линейная регрессия или SVM , или что-то еще. Но в любом случае вы уже будете знать, как эта модель соответствует вашим данным и как вы можете измерить ее эффективность.


В качестве хорошего начального ресурса для изучения статистического подхода я бы порекомендовал курс « Введение в статистику » Себастьяна Труна. Хотя он довольно простой и не содержит сложных тем, он описывает наиболее важные понятия и дает систематическое понимание теории вероятностей и статистики.

ffriend
источник
Спасибо за это! Это подтверждает некоторые шаги, которые я уже предпринял (предварительный анализ, проверка гипотез и т. Д.).
Джейми
7

Хотя я не специалист по данным, я эпидемиолог, работающий в клинических условиях. В вашем исследовательском вопросе не был указан период времени (т. Е. Вероятность развития ХБП через 1 год, 10 лет, продолжительность жизни?).

Как правило, я бы прошел несколько этапов, прежде чем даже думать о моделировании (одномерный анализ, двумерный анализ, проверки коллинеарности и т. Д.). Однако наиболее часто используемым методом для прогнозирования двоичного события (с использованием непрерывных двоичных переменных ИЛИ) является логистическая регрессия. Если вы хотите рассматривать ХБП как лабораторную величину (альбумин мочи, рСКФ), вы должны использовать линейную регрессию (непрерывный результат).

В то время как используемые методы должны быть основаны на ваших данных и вопросах, врачи привыкли видеть отношения шансов и отношений риска, поскольку они являются наиболее часто регистрируемыми показателями ассоциации в медицинских журналах, таких как NEJM и JAMA.

Если вы работаете над этой проблемой с точки зрения здоровья человека (в отличие от бизнес-аналитики), эта модель клинического прогнозирования Штейерберга является отличным ресурсом.

дани
источник
1
Спасибо за полезные предложения. Я обязательно проверю эту книгу! Хотя у меня есть доступ к лабораторным данным, данные ненадежны и нерегулярны, поэтому я стараюсь придерживаться данных, которые я могу получить из претензий. Переменные, обозначающие переменные, фактически являются группами AHRQ Clinical Classification Software, объединяющими коды диагностики.
Джейми
3

«Определить наиболее влиятельные исходные состояния (сопутствующие заболевания) для такого заболевания, как хроническое заболевание почек»

Я не уверен , что это возможно ID в самых влиятельных условиях; Я думаю, это будет зависеть от того, какую модель вы используете. Буквально вчера я подгонял случайный лес и расширенное дерево регрессии к одним и тем же данным, и порядок и относительная важность каждой модели для переменных были совершенно разными.

JenSCDC
источник
Спасибо, Энди. Не могли бы вы уточнить немного? Это потому, что переменные не фиксируют достаточно деталей?
Джейми
Я понятия не имею. Я думаю, это зависит от того, как работают разные модели.
JenSCDC
Не могли бы вы предложить некоторые решения, которые вы пробовали или рассматривали?
Джейми
До сих пор я не сделал, так что никакой помощи там нет. Сожалею.
JenSCDC
Я сейчас в отпуске в течение следующих нескольких недель, но когда я вернусь, я посмотрю на это, потому что это действительно пробудило мой интерес.
JenSCDC