Considere observações censuradas à direita, com eventos às vezes . O número de indivíduos suscetíveis no momento é e o número de eventos no momento é .
O Kaplan-Meier ou estimador de produto surge naturalmente como um MLE quando a função de sobrevivência é uma função escalonada . A probabilidade é então
OK, agora suponha que eu queira ir bayesiano. Eu preciso de algum tipo de `` natural '' antes com o qual multiplicarei , certo?
Pesquisando as palavras-chave óbvias, descobri que o processo Dirichlet é um bom prior. Mas até onde eu entendo, também é um prior nos pontos de descontinuidade ?
Isso é certamente muito interessante e estou ansioso para aprender sobre isso, mas gostaria de me contentar com algo mais simples. Começo a suspeitar que não é tão fácil como pensei, e é hora de pedir seu conselho ...
Muito obrigado antecipadamente!
PS: Alguma precisão no que espero que eu esteja interessado (o mais simples possível) em explicações sobre a maneira de lidar com o processo Dirichlet antes, no entanto, acho que deve ser possível usar simplesmente um prior no - isto é um anterior na etapa funciona com descontinuidades em .
Penso que a "forma global" das funções de passo amostradas anteriormente não depende dos 's - deve haver uma família subjacente de funções contínuas que são aproximadas por essas funções de passo.
Não sei se o deve ser independente (duvido). Se estiverem, acho que isso implica que o anterior depende de e, se denotarmos sua distribuição por , o produto de um por uma variável independente é uma variável . Parece aqui que as variáveis log- podem ser úteis.
Mas aqui basicamente eu estou preso. Eu não digitei isso no começo porque não queria direcionar todas as respostas nessa direção. Gostaria particularmente de receber respostas com referências bibliográficas para me ajudar a justificar minha escolha final.
fonte
Respostas:
Note that because your likelihood function is a product ofαi functions - the data are telling you that there is no evidence for correlation between them. Note that the di variables are already scaling to account for time. Longer time period means more chance for events, generally meaning larger di .
The most basic way to "go Bayesian" here is to use independent uniform priorsp(αi)=1 . Note that 0<αi<1 so this is a proper prior - hence posterior is also proper. The posterior is independent beta distributions with parameters p(αi)∼beta(ni−di+1,di+1) . This can be easily simulated to generate the posterior distribution of the survival curve, using
rbeta ()
function in R for example.I think this gets at your main question about a "simpler" method. Below is just the beginings of an idea to create a better model, that retains the flexible KM form for the survival function.
I think the main problem with the KM curve is in the Survival function though, and not in the prior. For example, why should theti values correspond to time points that were observed? Wouldn't it make more sense to place them at points corresponding to meaningful event times based on the actual process?
If the observed time points are too far apart, the KM curve will be "too smooth". If they are too close, the KM curve will be "too rough", and potentially exhibit abrupt changes.
One way to deal with the "too rough" problem is to place a correlated prior on α such that αi≈αi+1 . The effect of this prior will be to shrink nearby parameters closer together. You could use this in the "log-odds" space ηi=log(αi1−αi) and use a kth order random walk prior on η . For a first order random walk this introduces penalties of the form −τ(ηi−ηi−1)2 into the log-likelihood. The BayesX software has some very good documentation of this kind of smoothing. Basically choosing the order k is like doing a kth order local polynomial. If you like splines, choose k=3. Of course, by using a "fine" time grid you will have time points with no observations. Howdver, this complicates your likelihood function, as the ni,di are missing for some i . For example if (t0,t1) was split into 3 "finer" intervals (t00,t01,t02,t10) then you don't know n02,n10,d01,d02,d10 but only n1=n01 and d1=d01+d02+d10 . So you would probably need to add these "missing data" and use an EM algorithm or perhaps VB (provided you're not going down the mcmc path).
Hope this gives you a start.
fonte
For readers facing the problem of going to Bayesian for estimating survival functions accepting right censoring, I would recommend the nonparametric Bayesian approach developed by F Mangili, A Benavoli et al. The only prior specification is a (precision or strength) parameter. It avoids the need to specify the Dirichlet process in case of lack of prior information. The authors propose (1) - a robust estimator of the survival curves and its credible intervals for the probability of survival (2) - A test in the difference of survival of individuals from 2 independent populations which presents various benefits over the classical log rank test or other nonparametric tests. See the R package IDPsurvival and this reference: Reliable survival analysis based on the Dirichlet process. F Mangili et al. Biometrical Journal. 2014.
fonte