Анализ выживания для прогнозирования событий

Для каждой записи в моих наборах данных у меня есть следующая информация

(X_{1}, \dots, X_{m}, δ, T)

$(X_1 \ , \dots \ , X_m \ , \delta \ , T \ )$

где - объекты, - 1, если происходит целевое событие, и 0 в противном случае, а - отметка времени произошедшего события. В частности, может отсутствовать, если не было события или установлено время окончания наблюдения. $X_i$ $\delta$ $T$ $T$

Я хочу вычислить индекс риска для каждой записи в моем наборе данных.

Я думал пойти на модель классификации, которая использует функции $X_i$ для прогнозирования класса $\delta$ . Тем не менее, $T$ важно: если событие $\delta$ может произойти в ближайшее время, риск должен быть выше.

Вот почему анализ выживания должен подходить для этой проблемы. Мне не нужна полная оценка $S(t) = P(T>t)$ а только один индекс, представляющий риск для одной записи.

Среднее время выживания, которое можно рассчитать для каждой записи, кажется хорошим показателем риска - чем ниже, тем выше риск.

Мой вопрос:

Подходит ли анализ выживания для моих целей?
Как я могу оценить производительность моей модели?

О вопросе (2): я стремлюсь использовать индекс Харрелла, например, но я не уверен, какой прогнозируемый результат используется для его вычисления. Из книги Харрелла «Стратегии регрессионного моделирования», стр. 247: $c$

Индекс [...] рассчитывается путем взятия всех возможных пар субъектов таким образом, чтобы один из них ответил, а другой - нет. Индекс - это доля таких пар, у которых респондент имеет более высокую прогнозируемую вероятность ответа, чем не респондент. $c$

Если анализ выживания оказывается правильным выбором, я думаю, что должно быть легко использовать какой-то стандартный метод для введения изменяющихся во времени ковариат . $X_i(t)$

classification survival Симона
источник

Ответы:

Подходит ли анализ выживания для моих целей?

Единственное, что делает это менее подходящим для анализа выживания, это:

... может отсутствовать, если не было события или установлено время окончания наблюдения. $TT$

Вам нужно будет знать последний период, в течение которого человек был жив для большинства моделей. В противном случае это должно быть простым и применимым для использования анализа выживания. Например, пропорциональная опасность Кокса с survival::coxphв R или параметрические модели с survival::survreg.

Среднее время выживания, которое можно рассчитать для каждой записи, кажется хорошим показателем риска - чем ниже, тем выше риск.

Да, вы можете использовать среднее время выживания или просто линейный предиктор для двух ранее упомянутых (классов) моделей.

Как я могу оценить производительность моей модели?

Индекс представляется мне разумным выбором как «естественное» обобщение AUC. Обратите внимание, что реализовано в R с, например . $c$ Hmisc::rcorr.cens

Бенджамин Кристофферсен
источник