В Survival Analysis вы предполагаете, что время выживания rv распределено экспоненциально. Учитывая теперь , что у меня есть х 1 , ... , х п «результаты» н.о.р. с.в. X я . Только некоторая часть этих результатов фактически «полностью реализована», то есть остальные наблюдения все еще «живы».
Если бы я хотел выполнить оценку ML для параметра скорости распределения, как я могу использовать неосуществленные наблюдения согласованным / соответствующим образом? Я считаю, что они все еще содержат полезную информацию для оценки.
Может ли кто-нибудь направить меня к литературе по этой теме? Я уверен, что это существует. Однако у меня возникли проблемы с поиском хороших ключевых слов / поисковых терминов по теме.
maximum-likelihood
references
survival
censoring
exponential-family
Хороший парень майк
источник
источник
Ответы:
Вы все еще можете оценить параметры, используя вероятность напрямую. Пусть наблюдения будут с экспоненциальным распределением со скоростью λ > 0 и неизвестным. Функция плотности имеет вид f ( x ; λ ) = λ e - λ x , кумулятивная функция распределения F ( x ; λ ) = 1 - e - λ x и функция хвоста G ( x ; λ)x1,…,xn λ>0 f(x;λ)=λe−λx F(x;λ)=1−e−λx . Предположим, что первые r наблюдений полностью наблюдаются, в то время как для x r + 1 , … , x n мы знаем только, что x j > t j для некоторых известных положительных постоянных t j . Как всегда, вероятность - это "вероятность наблюдаемых данных" для цензурированных наблюдений, которая определяется как P ( X j > t jG(x;λ)=1−F(x;λ)=e−λx r xr+1,…,xn xj>tj tj , поэтому полная функция правдоподобия имеет вид
L ( λ ) = r ∏ i = 1 f ( x i ; λ ) ⋅ n ∏ i = r + 1 G ( t j ; λ )
Логарифмическое правдоподобие функция становится
l ( λ ) = r log λ - λ ( xP(Xj>tj)=G(tj;λ)
Но, в любом случае, реальный вывод из данных в этом случае заключается в том, что мы должны ждать больше времени, пока не получим некоторые события ...
источник