Анализ выживания для прогнозирования событий

9

Для каждой записи в моих наборах данных у меня есть следующая информация

(X1 , ,Xm ,δ ,T )

где - объекты, - 1, если происходит целевое событие, и 0 в противном случае, а - отметка времени произошедшего события. В частности, может отсутствовать, если не было события или установлено время окончания наблюдения.XiδTT

Я хочу вычислить индекс риска для каждой записи в моем наборе данных.

Я думал пойти на модель классификации, которая использует функции Xi для прогнозирования класса δ . Тем не менее, T важно: если событие δ может произойти в ближайшее время, риск должен быть выше.

Вот почему анализ выживания должен подходить для этой проблемы. Мне не нужна полная оценка S(t)=P(T>t) а только один индекс, представляющий риск для одной записи.

Среднее время выживания, которое можно рассчитать для каждой записи, кажется хорошим показателем риска - чем ниже, тем выше риск.

Мой вопрос:

  1. Подходит ли анализ выживания для моих целей?
  2. Как я могу оценить производительность моей модели?

О вопросе (2): я стремлюсь использовать индекс Харрелла, например, но я не уверен, какой прогнозируемый результат используется для его вычисления. Из книги Харрелла «Стратегии регрессионного моделирования», стр. 247:c

Индекс [...] рассчитывается путем взятия всех возможных пар субъектов таким образом, чтобы один из них ответил, а другой - нет. Индекс - это доля таких пар, у которых респондент имеет более высокую прогнозируемую вероятность ответа, чем не респондент.c

Если анализ выживания оказывается правильным выбором, я думаю, что должно быть легко использовать какой-то стандартный метод для введения изменяющихся во времени ковариат .Xi(t)

Симона
источник

Ответы:

3

Подходит ли анализ выживания для моих целей?

Единственное, что делает это менее подходящим для анализа выживания, это:

... может отсутствовать, если не было события или установлено время окончания наблюдения.TT

Вам нужно будет знать последний период, в течение которого человек был жив для большинства моделей. В противном случае это должно быть простым и применимым для использования анализа выживания. Например, пропорциональная опасность Кокса с survival::coxphв R или параметрические модели с survival::survreg.

Среднее время выживания, которое можно рассчитать для каждой записи, кажется хорошим показателем риска - чем ниже, тем выше риск.

Да, вы можете использовать среднее время выживания или просто линейный предиктор для двух ранее упомянутых (классов) моделей.

Как я могу оценить производительность моей модели?

Индекс представляется мне разумным выбором как «естественное» обобщение AUC. Обратите внимание, что реализовано в R с, например .cHmisc::rcorr.cens

Бенджамин Кристофферсен
источник