Правильная техника начальной загрузки для кластерных данных?

16

У меня есть вопрос относительно правильной методики начальной загрузки для использования с данными, где присутствует сильная кластеризация.

Мне было поручено оценить многомерную модель прогнозирования смешанных эффектов для данных страховых требований путем оценки текущей базовой модели на более поздних данных о претензиях, чтобы определить, насколько хорошо модель прогнозирует, какие эпизоды медицинской помощи содержат наибольшую частоту сеансов (верхний 95 процентиль). Чувствительность, специфичность и положительная прогностическая ценность (PPV) будут использоваться для оценки эффективности модели.

Самозагрузка кажется правильным способом построения доверительных интервалов для чувствительности, специфичности и процентного отношения PPV. К сожалению, наивный бутстрап не подходит, учитывая, что данные претензий 1) коррелируют с лечащим врачом, 2) сгруппированы в эпизоды оказания помощи с более частыми посещениями в течение нескольких месяцев ранее в эпизоде ​​оказания помощи (поэтому присутствует некоторая автокорреляция). Будет ли здесь уместным вариант с техникой начальной загрузки движущихся блоков?

Или, возможно, сработает трехэтапная процедура начальной загрузки: 1) выборка с заменой от отдельных поставщиков в данных, затем 2) выборка с заменой от отдельных эпизодов оказания помощи выбранными поставщиками, затем 3) выборка с заменой из отдельных заявок в каждой выбранный эпизод.

Большое спасибо за любые предложения!

RobertF
источник

Ответы:

14

Второй подход, который вы предлагаете, кажется разумным, но оказывается, что лучше выбирать только с заменой на самом высоком уровне и без замены на оставшихся подуровнях при загрузке иерархических данных. Это показано на примере моделирования Реном и др. (2010): http://www.tandfonline.com/doi/abs/10.1080/02664760903046102.

Field & Welsh (2007) теоретически исследовали различные подходы для двухуровневых наборов данных и обнаружили, что выборка с заменой на обоих уровнях не была блестящей идеей.
http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2007.00593.x/full

Упомянутая вами автокорреляция - серьезная проблема. С другой стороны, выбор без замены из эпизодов ухода сохранит автокорреляционную структуру, поэтому, возможно, это не такая большая проблема.

Pelle
источник
Мне интересно, подходит ли следующее решение:
Рафаэль
... извините, я не смог закончить свой предыдущий комментарий. Вот оно: ... Создать код (id), который учитывает каждый уровень кластеризации (например, episoid1.claim1, episoid1.claim1, ..., episoid2.claim1, episoid2.claim2, ..., episoidn.claimp) , а затем используйте GEE, который позволит вам иметь дело с автокорреляцией. Я где-то читал, что модели GEE дают надежную оценку даже при наличии более сложных структур. Это решение звучит разумно?
Рафаэль