Интуиция для функции кумулятивного риска (анализ выживания)

17

Я пытаюсь получить интуицию для каждой из основных функций в актуарной науке (специально для модели пропорциональных рисков Кокса). Вот что у меня так далеко:

  • f(x) : начиная с момента начала, распределение вероятностей, когда вы умрете.
  • F(x) : только совокупное распределение. В момент времени , какой процент населения погибнет?T
  • S(x) :1F(x) . В момент времени , какой процент населения будет жив?T
  • h(x) : функция опасности. В данный момент времени людей, которые еще живы, это можно использовать для оценки того, сколько людей умрет в следующем интервале времени или, если интервал-> 0, «мгновенная» вероятность смерти.T
  • H(x) : накопленная опасность. Без понятия.

Какова идея объединения значений опасности, особенно когда они непрерывны? Если мы используем дискретный пример с показателями смертности в течение четырех сезонов, а функция опасности выглядит следующим образом:

  • Начиная с весны все живы и 20% умрут
  • Теперь летом из оставшихся 50% умрут
  • Теперь осенью из оставшихся 75% умрут
  • Финальный сезон - зима. Из оставшихся 100% умрут

Тогда совокупная опасность составляет 20%, 70%, 145%, 245% Что это значит, и почему это полезно?

Джон
источник
1
Ваши должны быть х или наоборот. Tx
Glen_b
5
Что касается , у вас есть ошибка (хотя это очень распространенная путаница). Вы пишете, «интервал-> 0,« мгновенная »вероятность смерти». Правильным утверждением будет «мгновенная смертность ». Это не может быть вероятностью, потому что это вероятность, деленная на d t ; более того, это может быть> 1. h(x)dt
gung - Восстановить Монику

Ответы:

6

Комбинирование пропорций, умирающих, как и вы, не дает вам кумулятивной опасности. Степень опасности в непрерывном времени - это условная вероятность того, что в течение очень короткого интервала произойдет событие:

h(t)=limΔt0P(t<Tt+Δt|T>t)Δt

Кумулятивная опасность - это интеграция (мгновенной) степени опасности по возрастам / времени. Это как суммируя вероятности, но так как очень мало, эти вероятности, также небольшое количество (например , скорость опасности смерти может быть около 0.004 в возрасте около 30 лет ). Степень опасности зависит от того, не произошло ли событие до t , поэтому для населения оно может составлять более 1.Δtt

Вы можете посмотреть таблицу человеческой смертности, хотя это и есть формулировка с дискретным временем, и попытаться накопить .mx

Если вы используете R, вот небольшой пример аппроксимации этих функций по количеству смертей в каждом возрасте 1 год:

dx <-  c(3184L, 268L, 145L, 81L, 64L, 81L, 101L, 50L, 72L, 76L, 50L, 
         62L, 65L, 95L, 86L, 120L, 86L, 110L, 144L, 147L, 206L, 244L, 
         175L, 227L, 182L, 227L, 205L, 196L, 202L, 154L, 218L, 279L, 193L, 
         223L, 227L, 300L, 226L, 256L, 259L, 282L, 303L, 373L, 412L, 297L, 
         436L, 402L, 356L, 485L, 495L, 597L, 645L, 535L, 646L, 851L, 689L, 
         823L, 927L, 878L, 1036L, 1070L, 971L, 1225L, 1298L, 1539L, 1544L, 
         1673L, 1700L, 1909L, 2253L, 2388L, 2578L, 2353L, 2824L, 2909L, 
         2994L, 2970L, 2929L, 3401L, 3267L, 3411L, 3532L, 3090L, 3163L, 
         3060L, 2870L, 2650L, 2405L, 2143L, 1872L, 1601L, 1340L, 1095L, 
         872L, 677L, 512L, 376L, 268L, 186L, 125L, 81L, 51L, 31L, 18L, 
         11L, 6L, 3L, 2L)

x <- 0:(length(dx)-1) # age vector

plot((dx/sum(dx))/(1-cumsum(dx/sum(dx))), t="l", xlab="age", ylab="h(t)", 
     main="h(t)", log="y")
plot(cumsum((dx/sum(dx))/(1-cumsum(dx/sum(dx)))), t="l", xlab="age", ylab="H(t)", 
     main="H(t)")

Надеюсь это поможет.

Мартин
источник
Правильно ли говорить, что h (t) * dt - это вероятность события, произошедшего в интервале длины dt вокруг t? следовательно, значение h (t) является вероятностью события, происходящего в течение 1 единицы времени с центром вокруг t. Это было бы только в том случае, если h (t) <= 1
ворона
10

В книге Марио Клевеса «Введение в анализ выживания с использованием Stata» (2-е издание) есть хорошая глава на эту тему.

Вы можете найти главу о книгах Google , стр. 13-15. Но я бы посоветовал прочитать всю главу 2.

Вот краткая форма:

  • «Он измеряет общую сумму риска, накопленную за время t» (стр. 8)
  • интерпретация подсчета данных: «он дает число раз, которое мы ожидаем (математически) наблюдать за сбоями [или другими событиями] за определенный период, если бы только событие сбоя было повторяемым» (стр. 13)
elevendollar
источник
5

Я бы рискнул предположить, что он заслуживает внимания из-за его использования на диагностических участках:

h(x)=eβTzh0(x)βzh0(x)logH(x)=βTz+H0(x)logH^(x)x

h(x)=αθ(xθ)α1θαlogH(x)=αlogxαlogθlogH^(x)logxα^α^logθ^при условии, что предположение Вейбулла верно. И, конечно, наклон около 1 предполагает, что экспоненциальная модель может подойти.

H(x)x

Scortchi - Восстановить Монику
источник
3

Перефразируя то, что говорит @Scortchi, я бы подчеркнул, что функция кумулятивной опасности не имеет хорошей интерпретации, и поэтому я бы не стал использовать ее как способ интерпретации результатов; Сообщение нестатистического исследователя о том, что кумулятивные опасности различны, скорее всего, приведет к ответу "мм-хм", и тогда они никогда больше не будут спрашивать о предмете, и не очень хорошо.

Тем не менее, функция совокупной опасности оказывается очень полезной математически, например, общий способ связать функцию опасности и функцию выживания. Поэтому важно знать, что такое накопленная опасность и как ее можно использовать в различных статистических методах. Но в целом, я не думаю, что особенно полезно думать о реальных данных с точки зрения совокупной опасности.

Клифф AB
источник