Análise Bayesiana de Sobrevivência: por favor, escreva-me um prior para Kaplan Meier!

20

Considere observações censuradas à direita, com eventos às vezes . O número de indivíduos suscetíveis no momento é e o número de eventos no momento é .t1,t2,iniidi

O Kaplan-Meier ou estimador de produto surge naturalmente como um MLE quando a função de sobrevivência é uma função escalonada . A probabilidade é então S(t)=i:ti<tαi

L(α)=i(1αi)diαinidi
e a MLE é α i = 1 - d iα^i=1dini .

OK, agora suponha que eu queira ir bayesiano. Eu preciso de algum tipo de `` natural '' antes com o qual multiplicarei , certo?L(α)

Pesquisando as palavras-chave óbvias, descobri que o processo Dirichlet é um bom prior. Mas até onde eu entendo, também é um prior nos pontos de descontinuidade ?ti

Isso é certamente muito interessante e estou ansioso para aprender sobre isso, mas gostaria de me contentar com algo mais simples. Começo a suspeitar que não é tão fácil como pensei, e é hora de pedir seu conselho ...

Muito obrigado antecipadamente!

PS: Alguma precisão no que espero que eu esteja interessado (o mais simples possível) em explicações sobre a maneira de lidar com o processo Dirichlet antes, no entanto, acho que deve ser possível usar simplesmente um prior no - isto é um anterior na etapa funciona com descontinuidades em .αiti

Penso que a "forma global" das funções de passo amostradas anteriormente não depende dos 's - deve haver uma família subjacente de funções contínuas que são aproximadas por essas funções de passo.ti

Não sei se o deve ser independente (duvido). Se estiverem, acho que isso implica que o anterior depende de e, se denotarmos sua distribuição por , o produto de um por uma variável independente é uma variável . Parece aqui que as variáveis log- podem ser úteis.αiαiΔti=titi1A(Δt)A(Δ1)A(Δ2)A(Δ1+Δ2)Γ

Mas aqui basicamente eu estou preso. Eu não digitei isso no começo porque não queria direcionar todas as respostas nessa direção. Gostaria particularmente de receber respostas com referências bibliográficas para me ajudar a justificar minha escolha final.

Elvis
fonte
No MLE,a^i=1dimi, what is mi? Is that a typo? Do you mean ni?
stachyra
Yes, it’s ni, of course. I correct.
Elvis
1
From this slidedeck, I found this paper, the author of which also has this introduction. If those won't suffice as sources, their own references likely will. Also this video on hierarchal Dirichlet processes.
Sean Easter
Note that I understand the basic characterizations of DP but I don't get well how to use it, concretely, as a prior... Also, with which base measure etc.
Elvis
Is that likelihood function unique? Or can you get KM from other likelihoods?
probabilityislogic

Respostas:

11

Note that because your likelihood function is a product of αi functions - the data are telling you that there is no evidence for correlation between them. Note that the di variables are already scaling to account for time. Longer time period means more chance for events, generally meaning larger di.

The most basic way to "go Bayesian" here is to use independent uniform priors p(αi)=1. Note that 0<αi<1 so this is a proper prior - hence posterior is also proper. The posterior is independent beta distributions with parameters p(αi)beta(nidi+1,di+1). This can be easily simulated to generate the posterior distribution of the survival curve, using rbeta () function in R for example.

I think this gets at your main question about a "simpler" method. Below is just the beginings of an idea to create a better model, that retains the flexible KM form for the survival function.

I think the main problem with the KM curve is in the Survival function though, and not in the prior. For example, why should the ti values correspond to time points that were observed? Wouldn't it make more sense to place them at points corresponding to meaningful event times based on the actual process? If the observed time points are too far apart, the KM curve will be "too smooth". If they are too close, the KM curve will be "too rough", and potentially exhibit abrupt changes. One way to deal with the "too rough" problem is to place a correlated prior on α such that αiαi+1. The effect of this prior will be to shrink nearby parameters closer together. You could use this in the "log-odds" space ηi=log(αi1αi) and use a kth order random walk prior on η. For a first order random walk this introduces penalties of the form τ(ηiηi1)2 into the log-likelihood. The BayesX software has some very good documentation of this kind of smoothing. Basically choosing the order k is like doing a kth order local polynomial. If you like splines, choose k=3. Of course, by using a "fine" time grid you will have time points with no observations. Howdver, this complicates your likelihood function, as the ni,di are missing for some i. For example if (t0,t1) was split into 3 "finer" intervals (t00,t01,t02,t10) then you don't know n02,n10,d01,d02,d10 but only n1=n01 and d1=d01+d02+d10. So you would probably need to add these "missing data" and use an EM algorithm or perhaps VB (provided you're not going down the mcmc path).

Hope this gives you a start.

probabilityislogic
fonte
Obrigado por seus pensamentos (+1). Eu estava usando o uniforme antes e acho que vou manter isso ... Meu problema real é mais complicado que o exposto aqui, tenho correlações entre osαEu's. Este "passeio aleatório anterior" é intrigante, vou dar uma olhada.
22414 Elvis
5

For readers facing the problem of going to Bayesian for estimating survival functions accepting right censoring, I would recommend the nonparametric Bayesian approach developed by F Mangili, A Benavoli et al. The only prior specification is a (precision or strength) parameter. It avoids the need to specify the Dirichlet process in case of lack of prior information. The authors propose (1) - a robust estimator of the survival curves and its credible intervals for the probability of survival (2) - A test in the difference of survival of individuals from 2 independent populations which presents various benefits over the classical log rank test or other nonparametric tests. See the R package IDPsurvival and this reference: Reliable survival analysis based on the Dirichlet process. F Mangili et al. Biometrical Journal. 2014.

Pascal
fonte