ML оценка экспоненциального распределения (с цензурой данных)

9

В Survival Analysis вы предполагаете, что время выживания rv распределено экспоненциально. Учитывая теперь , что у меня есть х 1 , ... , х п «результаты» н.о.р. с.в. X я . Только некоторая часть этих результатов фактически «полностью реализована», то есть остальные наблюдения все еще «живы».Xix1,,xnXi

Если бы я хотел выполнить оценку ML для параметра скорости распределения, как я могу использовать неосуществленные наблюдения согласованным / соответствующим образом? Я считаю, что они все еще содержат полезную информацию для оценки.λ

Может ли кто-нибудь направить меня к литературе по этой теме? Я уверен, что это существует. Однако у меня возникли проблемы с поиском хороших ключевых слов / поисковых терминов по теме.

Хороший парень майк
источник
3
Итак, вы говорите, что из случайных величин, измерения которых у вас есть, скажем, n 1 < n наблюдений представляют «окончательные» значения продолжительности жизни (потому что связанные случайные величины были «мертвыми» во время измерения), а остальные n 2 < n наблюдения - это длины выживания случайных величин, которые были «еще живы» во время измерения? ( n 1 + n 2 = n )nn1<nn2<nn1+n2=n
Алекос Пападопулос
1
это усеченная модель, где «живые» случайные переменные усекаются в момент остановки наблюдения.
Сиань
1
Проверьте модели Tobit для усеченных данных и связанных источников (например, здесь ).
Ричард Харди
2
Похоже, у вас есть данные, подвергнутые цензуре, например, время жизни, когда некоторые люди умерли, но некоторые все еще живы, например, вы знаете, что, скажем, для некоторой известной константы t i . xi>titi
kjetil b halvorsen
3
Остерегайтесь иногда тонкого различия между этими двумя ситуациями. Нередко усечение путают с цензурой и наоборот.
Алекос Пападопулос

Ответы:

17

Вы все еще можете оценить параметры, используя вероятность напрямую. Пусть наблюдения будут с экспоненциальным распределением со скоростью λ > 0 и неизвестным. Функция плотности имеет вид f ( x ; λ ) = λ e - λ x , кумулятивная функция распределения F ( x ; λ ) = 1 - e - λ x и функция хвоста G ( x ; λ)x1,,xnλ>0f(x;λ)=λeλxF(x;λ)=1eλx . Предположим, что первые r наблюдений полностью наблюдаются, в то время как для x r + 1 , , x n мы знаем только, что x j > t j для некоторых известных положительных постоянных t j . Как всегда, вероятность - это "вероятность наблюдаемых данных" для цензурированных наблюдений, которая определяется как P ( X j > t jG(x;λ)=1F(x;λ)=eλxrxr+1,,xnxj>tjtj , поэтому полная функция правдоподобия имеет вид L ( λ ) = r i = 1 f ( x i ; λ ) n i = r + 1 G ( t j ; λ ) Логарифмическое правдоподобие функция становится l ( λ ) = r log λ - λ ( xP(Xj>tj)=G(tj;λ)

L(λ)=i=1rf(xi;λ)i=r+1nG(tj;λ)
которая имеет ту же форму, что и логарифмическое правдоподобие для обычного, полностью наблюдаемого случая, за исключением первого члена r log λ вместо n log λ . Запись T для средних наблюдений и времени цензурирования, то оценке максимального правдоподобия Х становится λ = г
l(λ)=rlogλλ(x1++xr+tr+1++tn)
rlogλnlogλTλ , который вы сами можете сравнить с полностью наблюдаемым случаем.λ^=rnT
 EDIT   

r=0

l(λ)=nTλ
λλ=0λλ

Но, в любом случае, реальный вывод из данных в этом случае заключается в том, что мы должны ждать больше времени, пока не получим некоторые события ...

λeλnTpnp[p¯,1]λlogp=λT

p

P(X=n)=pn0.95    (say)
nlogplog0.95λ
λlog0.95nT.
Къетил б Халворсен
источник
1
xj>tj