В настоящее время я работаю с большим количеством данных о страховых случаях, включая некоторые лабораторные и аптечные претензии. Однако наиболее согласованная информация в наборе данных состоит из диагноза (ICD-9CM) и кодов процедур (CPT, HCSPCS, ICD-9CM).
Мои цели:
- Выявить наиболее влиятельные исходные состояния (сопутствующие заболевания) для такого заболевания, как хроническое заболевание почек;
- Определите вероятность (или вероятность) того, что у пациента разовьется заболевание, основываясь на состояниях, которые у него были в прошлом;
- Сделайте так же, как 1 и 2, но с процедурами и / или диагнозами.
- Желательно, чтобы результаты были интерпретированы врачом
Я смотрел на такие вещи, как документы о важности Премии Здоровья Наследия, и многому научился у них, но они сосредоточены на прогнозировании госпитализаций.
Итак, вот мои вопросы: Как вы думаете, какие методы хорошо подходят для подобных проблем? И какие ресурсы были бы наиболее полезны для изучения приложений и методов науки о данных, относящихся к здравоохранению и клинической медицине?
РЕДАКТИРОВАТЬ # 2, чтобы добавить текстовую таблицу:
ХБП является целевым состоянием, «хроническое заболевание почек», «.any» означает, что они приобрели это состояние в любое время, «.isbefore.ckd» означает, что у них было это состояние до первого диагноза ХБП. Другие аббревиатуры соответствуют другим условиям, указанным в кодовых группах ICD-9CM. Эта группировка происходит в SQL во время процесса импорта. Каждая переменная, за исключением Patient_age, является двоичной.
источник
Ответы:
Я никогда не работал с медицинскими данными, но из общих соображений я бы сказал, что отношения между переменными в здравоохранении довольно сложны. Различные модели, такие как случайные леса, регрессия и т. Д., Могут охватывать только часть отношений и игнорировать другие. В таких обстоятельствах имеет смысл использовать общие статистические исследования и моделирование .
Например, самое первое, что я хотел бы сделать, это выяснить корреляции между возможными условиями предшественника и диагнозами. Например, в каком проценте случаев хроническому заболеванию почек предшествовал длительный грипп? Если оно высокое, это не всегда означает причинность , но дает довольно хорошую пищу для размышлений и помогает лучше понять отношения между различными условиями.
Другим важным шагом является визуализация данных. Встречается ли ХБП у мужчин чаще, чем у женщин? Как насчет их места жительства? Каково распределение случаев ХБП по возрасту? Трудно представить большой набор данных в виде набора чисел, а их построение значительно облегчает задачу.
Когда у вас есть представление о том, что происходит, выполните проверку гипотез, чтобы проверить свои предположения. Если вы отвергаете нулевую гипотезу (основное предположение) в пользу альтернативной, поздравляю, вы сделали «нечто реальное».
Наконец, когда у вас есть хорошее понимание ваших данных, попробуйте создать полную модель . Это может быть что-то общее, например, PGM (например, созданная вручную байесовская сеть), или что-то более конкретное, например, линейная регрессия или SVM , или что-то еще. Но в любом случае вы уже будете знать, как эта модель соответствует вашим данным и как вы можете измерить ее эффективность.
В качестве хорошего начального ресурса для изучения статистического подхода я бы порекомендовал курс « Введение в статистику » Себастьяна Труна. Хотя он довольно простой и не содержит сложных тем, он описывает наиболее важные понятия и дает систематическое понимание теории вероятностей и статистики.
источник
Хотя я не специалист по данным, я эпидемиолог, работающий в клинических условиях. В вашем исследовательском вопросе не был указан период времени (т. Е. Вероятность развития ХБП через 1 год, 10 лет, продолжительность жизни?).
Как правило, я бы прошел несколько этапов, прежде чем даже думать о моделировании (одномерный анализ, двумерный анализ, проверки коллинеарности и т. Д.). Однако наиболее часто используемым методом для прогнозирования двоичного события (с использованием непрерывных двоичных переменных ИЛИ) является логистическая регрессия. Если вы хотите рассматривать ХБП как лабораторную величину (альбумин мочи, рСКФ), вы должны использовать линейную регрессию (непрерывный результат).
В то время как используемые методы должны быть основаны на ваших данных и вопросах, врачи привыкли видеть отношения шансов и отношений риска, поскольку они являются наиболее часто регистрируемыми показателями ассоциации в медицинских журналах, таких как NEJM и JAMA.
Если вы работаете над этой проблемой с точки зрения здоровья человека (в отличие от бизнес-аналитики), эта модель клинического прогнозирования Штейерберга является отличным ресурсом.
источник
«Определить наиболее влиятельные исходные состояния (сопутствующие заболевания) для такого заболевания, как хроническое заболевание почек»
Я не уверен , что это возможно ID в самых влиятельных условиях; Я думаю, это будет зависеть от того, какую модель вы используете. Буквально вчера я подгонял случайный лес и расширенное дерево регрессии к одним и тем же данным, и порядок и относительная важность каждой модели для переменных были совершенно разными.
источник