Я узнал о модели пропорционального риска Кокса. У меня большой опыт подбора моделей логистической регрессии, и поэтому для построения интуиции я сравнивал модели, подходящие для использования coxph
из «выживания» R, с моделями логистической регрессии, подходящими для использования glm
с family="binomial"
.
Если я запускаю код:
library(survival)
s = Surv(time=lung$time, event=lung$status - 1)
summary(coxph(s ~ age, data=lung))
summary(glm(status-1 ~ age, data=lung, family="binomial"))
Я получаю р-значения для возраста 0,0419 и 0,0254 соответственно. Точно так же, если я использую секс в качестве предиктора, с возрастом или без.
Я нахожу это озадачивающим, потому что я думаю, что принятие во внимание количества времени, потраченного на подбор модели, даст больше статистической силы, чем просто рассмотрение смерти как бинарного результата, в то время как значения p будут казаться соответствующими тому, который имеет меньшую статистическую мощность. Что здесь происходит?
Ответы:
Модель логистической регрессии предполагает, что ответом является испытание Бернулли (или, в более общем случае, биномиальное, но для простоты мы оставим его 0-1). Модель выживания предполагает, что ответом обычно является время на событие (опять же, есть некоторые обобщения, которые мы пропустим). Еще один способ показать, что единицы проходят через ряд значений, пока не произойдет событие. Дело не в том, что монета фактически дискретно подбрасывается в каждой точке. ( Конечно, это может произойти, но тогда вам понадобится модель для повторных измерений - возможно, GLMM.)
Ваша модель логистической регрессии воспринимает каждую смерть как бросок монеты, который произошел в этом возрасте и пришел к хвосту. Кроме того, он рассматривает каждую цензурированную датум как бросок монеты, который произошел в указанном возрасте и выпал на голову. Проблема здесь в том, что это не соответствует тому, что на самом деле представляют собой данные.
Вот несколько графиков данных и вывод моделей. (Обратите внимание, что я переворачиваю прогнозы из модели логистической регрессии в предсказание того, чтобы быть живым, чтобы линия соответствовала графику условной плотности.)
Может быть полезно рассмотреть ситуацию, в которой данные были подходящими для анализа выживания или логистической регрессии. Представьте себе исследование, чтобы определить вероятность повторного поступления пациента в больницу в течение 30 дней после выписки в соответствии с новым протоколом или стандартом медицинской помощи. Тем не менее, все пациенты следят за реадмиссией, и цензура отсутствует (это не очень реалистично), поэтому точное время до реадмиссии можно проанализировать с помощью анализа выживаемости (а именно, модели пропорциональных рисков Кокса здесь). Чтобы смоделировать эту ситуацию, я буду использовать экспоненциальные распределения со ставками .5 и 1 и использовать значение 1 в качестве предельного значения для представления 30 дней:
В этом случае мы видим, что значение p из модели логистической регрессии (
0.163
) было выше, чем значение p из анализа выживания (0.005
). Для дальнейшего изучения этой идеи мы можем расширить моделирование, чтобы оценить силу анализа логистической регрессии в сравнении с анализом выживаемости, и вероятность того, что значение p в модели Кокса будет ниже, чем значение p в логистической регрессии , Я также буду использовать 1.4 в качестве порога, чтобы не ставить в невыгодное положение логистическую регрессию, используя субоптимальное ограничение:Таким образом, мощность логистической регрессии является ниже (около 75%) , чем анализ выживаемости (около 93%), и 90% р-значений из анализа выживаемости были ниже , чем соответствующие р-значения из логистической регрессии. Принимая во внимание время запаздывания, вместо того, чтобы быть меньше или превышать некоторый порог, вы получаете большую статистическую мощность, как вы интуитивно поняли.
источник