Рассмотрим наблюдения, прошедшие цензуру справа, с событиями в моменты времени . Число восприимчивых людей в момент времени равно , а количество событий в момент времени равно .
Оценка Каплана-Мейера или продукта возникает естественным образом как MLE, когда функция выживания является ступенчатой функцией . Правдоподобия , то
Хорошо, теперь предположим, что я хочу перейти на байесовский. Мне нужен какой-то "естественный" априор, с которым я буду умножать , верно?
Погуглив очевидные ключевые слова, я обнаружил, что процесс Дирихле является хорошим предшественником. Но, насколько я понимаю, это также априор по точкам разрыва ?
Это, безусловно, очень интересно, и мне не терпится узнать об этом, но я бы согласился на что-то попроще. Я начинаю подозревать, что это не так просто, как я сначала подумал, и пришло время попросить вашего совета ...
Спасибо заранее!
PS: Несколько точных сведений о том, что я надеюсь, меня заинтересуют (как можно более простыми) объяснениями о способе обработки процесса Дирихле до этого, однако я думаю, что можно просто использовать априор для - то есть до шага по функциям с разрывами по t i .
Я думаю , что «глобальная форма» из ступенчатых функций , отобранных в предшествующем не должны зависит от «ы - должна быть основным семейством непрерывных функций , которые аппроксимируются этими ступенчатыми функциями.
Я не знаю, должен ли быть независимым (я сомневаюсь в этом). Если они, я думаю , что это означает , что до α я зависит от А т I = т I - т я - 1 , и если мы будем обозначать его распределение по А ( Δ т ) , то произведение A ( Δ 1 ) переменная независимой переменной A ( Δ 2 ) является A ( Δ 1 + Δ 2 )переменная. Кажется , здесь логарифмически переменные могут быть полезны.
Но вот в принципе я застрял. Я не набрал это сначала, потому что не хотел направлять все ответы в этом направлении. Я был бы особенно признателен за ответы с библиографическими ссылками, которые помогут мне обосновать мой окончательный выбор.
источник
Ответы:
Обратите внимание, что поскольку ваша функция правдоподобия является продуктом функций данные говорят вам, что нет никаких доказательств корреляции между ними. Обратите внимание, что переменные d i уже масштабируются для учета времени. Более длительный период времени означает больше шансов для событий, как правило, означает больший d i .αi di di
Наиболее простой способ «перейти на байесовский» здесь - использовать независимые однородные априорные значения . Обратите внимание, что 0 < α i < 1, так что это правильный априор, следовательно, апостериорный также является правильным. Апостериор является независимым бета-распределением с параметрами p ( α i ) ∼ b e t a ( n i - d i + 1 , d i + 1 )p(αi)=1 0<αi<1 p(αi)∼beta(ni−di+1,di+1) , Это можно легко смоделировать для генерации апостериорного распределения кривой выживания, используя, например,
rbeta ()
функцию в R.Я думаю, что это касается вашего основного вопроса о «более простом» методе. Ниже приведены только идеи создания лучшей модели, которая сохраняет гибкую форму КМ для функции выживания.
Я думаю, что главная проблема с кривой КМ заключается в функции выживания, а не в предыдущем. Например, почему значения должны соответствовать наблюдаемым моментам времени? Разве не имеет смысла размещать их в точках, соответствующих значимым временам событий, основанным на фактическом процессе? Если наблюдаемые моменты времени находятся слишком далеко друг от друга, кривая КМ будет «слишком гладкой». Если они находятся слишком близко, кривая КМ будет «слишком грубой» и потенциально может иметь резкие изменения. Один из способов справиться с «слишком грубой» проблемой - поместить коррелированный априор в α так , чтобы α i ≈ α i + 1ti α αi≈αi+1 , Эффект этого предварительного будет заключаться в том, чтобы сжать близлежащие параметры ближе друг к другу. Вы можете использовать это в пространстве «log-odds» ηi=log(αi1−αi) η −τ(ηi−ηi−1)2 ni,di i (t0,t1) (t00,t01,t02,t10) n02,n10,d01,d02,d10 but only n1=n01 and d1=d01+d02+d10 . So you would probably need to add these "missing data" and use an EM algorithm or perhaps VB (provided you're not going down the mcmc path).
Hope this gives you a start.
источник
For readers facing the problem of going to Bayesian for estimating survival functions accepting right censoring, I would recommend the nonparametric Bayesian approach developed by F Mangili, A Benavoli et al. The only prior specification is a (precision or strength) parameter. It avoids the need to specify the Dirichlet process in case of lack of prior information. The authors propose (1) - a robust estimator of the survival curves and its credible intervals for the probability of survival (2) - A test in the difference of survival of individuals from 2 independent populations which presents various benefits over the classical log rank test or other nonparametric tests. See the R package IDPsurvival and this reference: Reliable survival analysis based on the Dirichlet process. F Mangili et al. Biometrical Journal. 2014.
источник