Как определить, подходит ли модель выживания с отсутствующими данными?

9

Проще говоря, у меня есть около миллиона записей, которые записывают время входа и выхода людей в системе, охватывающей около десяти лет. У каждой записи есть время входа, но не у каждой записи есть время выхода. Среднее время в системе составляет ~ 1 год.

Отсутствующие времена выхода происходят по двум причинам:

  1. Человек не покинул систему во время сбора данных.
  2. Время выхода человека не было записано. Об этом говорят 50% записей

Интересующие вопросы:

  1. Люди проводят меньше времени в системе, и сколько времени.
  2. Записывается ли больше времени выхода и сколько.

Мы можем смоделировать это, сказав, что вероятность того, что выход будет записан, линейно изменяется во времени, и что время в системе имеет Вейбулла, параметры которого линейно изменяются во времени. Затем мы можем сделать оценку максимального правдоподобия различных параметров и оценить результаты и посчитать их правдоподобными. Мы выбрали распределение Вейбулла, потому что оно, похоже, используется для измерения времени жизни, и интересно сказать, а не подгонять данные лучше, чем гамма-распределение.

Куда мне обратиться, чтобы получить представление о том, как это сделать правильно? Мы немного математически подкованы, но не очень подкованы.

deinst
источник

Ответы:

5

Основной способ проверить, соответствуют ли ваши данные Вейбуллу, состоит в том, чтобы построить график зависимости совокупных опасностей от времени и посмотреть, подходит ли прямая линия. Кумулятивная опасность может быть найдена с помощью непараметрической оценки Нельсона-Аалена. Существует аналогичная графическая диагностика для регрессии Вейбулла, если вы подгоняете свои данные с помощью ковариат и некоторые ссылки приведены ниже.

Текст Klein & Moeschberger довольно хорош и охватывает множество вопросов, связанных со сборкой / диагностикой моделей для параметрических и полупараметрических моделей (хотя, в основном, последних). Если вы работаете в R, книга Тино довольно хороша (я думаю, он написал пакет выживания ). Он охватывает большую часть Кокса PH и связанных с ним моделей, но я не помню, чтобы в нем было много информации о параметрических моделях, подобных той, которую вы строите.

Кстати, это миллион субъектов, каждый с одним входом / выходом или повторяющимися событиями входа / выхода для небольшого числа людей? Вы обусловливаете свою вероятность учета механизма цензуры?

АРС
источник
Спасибо, это как раз то, что я искал. По сути, это миллион предметов, каждый из которых имеет время входа и выхода. Да, мы создаем условия для учета цензуры.
deinst
2

Вы можете использовать оценочную модель, чтобы предсказать время выхода для всех людей в вашей системе. Затем вы можете сравнить расчетное время выхода с фактическим временем выхода (где у вас есть эти данные) и вычислить такой показатель, как RMSE, чтобы оценить, насколько хороши ваши прогнозы, что, в свою очередь, даст вам ощущение соответствия модели. Смотрите также эту ссылку .


источник
1
С миллионной точкой и 8-параметрической моделью, проверка на пригодность, такая как хи-квадрат, говорит мне, что по существу нет шансов, что модель верна. (Что неудивительно, поскольку существуют бесконечные факторы, влияющие на реальность, которых нет в модели) RMSE дает мне представление о том, насколько хорошо модель соответствует данным, но не дает мне понять, существует ли лучшая модель
deinst
Ну, чтобы выяснить, есть ли лучшая модель, вы могли бы либо поэкспериментировать с разными формулировками, либо использовать разные графики (например, время выхода против времени), чтобы проверить, соответствуют ли данные предположениям вашей модели. Вы также можете построить график прогнозируемого времени выхода для небольшой выборки, выбранной случайным образом относительно фактического времени, для идей по улучшению модели.