Censura de intervalo

Corri uma curva de sobrevivência do censor de intervalo com R, JMP e SAS. Ambos me deram gráficos idênticos, mas as tabelas diferiram um pouco. Essa é a tabela que o JMP me deu.

Start Time  End Time    Survival    Failure SurvStdErr
.            14.0000      1.0000     0.0000     0.0000
16.0000      21.0000      0.5000     0.5000     0.2485
28.0000      36.0000      0.5000     0.5000     0.2188
40.0000      59.0000      0.2000     0.8000     0.2828
59.0000      91.0000      0.2000     0.8000     0.1340
94.0000     .             0.0000     1.0000     0.0000

Esta é a tabela que o SAS me deu:

Obs Lower Upper Probability Cum Probability Survival Prob Std.Error
1    14    16      0.5          0.5             0.5        0.1581
2    21    28      0.0          0.5             0.5        0.1581
3    36    40      0.3          0.8             0.2        0.1265
4    91    94      0.2          1.0             0.0        0.0

R teve uma saída menor. O gráfico era idêntico e a saída era:

Interval (14,16] -> probability 0.5
Interval (36,40] -> probability 0.3
Interval (91,94] -> probability 0.2

Meus problemas são:

Eu não entendo as diferenças
Eu não sei como interpretar os resultados ...
Eu não entendo a lógica por trás do método.

Se você pudesse me ajudar, especialmente com a interpretação, seria uma grande ajuda. Preciso resumir os resultados em algumas linhas e não sei como ler as tabelas.

Devo acrescentar que a amostra teve apenas 10 observações, infelizmente, dos intervalos em que os eventos ocorreram. Eu não queria usar o método de imputação do ponto médio, que é tendencioso. Mas eu tenho dois intervalos de (2,16], e a primeira pessoa a não sobreviver falha aos 14 na análise, então não sei como ele faz o que faz.

Gráfico:

insira a descrição da imagem aqui

r survival sas jmp interval-censoring user45442
fonte

Na verdade, Re SASconcordo completamente um com o outro: SASinclui 4 intervalos em vez de 3, mas observe que o CDF não muda no intervalo 2! De fato, os JMPresultados também concordam, mas são um pouco mais difíceis de seguir.

Cliff AB

Respostas:

A questão mais importante aqui é o entendimento da censura e qual o tipo que se aplica à sua situação. Portanto, para os seus problemas 1. e 3., entenda o contexto do seu problema. Isso ajudará você a definir o método de censura apropriado.

A saída R diz que o primeiro grupo de falhas está no intervalo (14,16). Isso não significa que a falha ocorreu aos 14. Isso significa que R assumiu que os dados eram censurados à direita, que é a suposição mais comum. para análise de sobrevivência.Por que a falha é citada como um intervalo (14,16), em vez de apenas uma probabilidade de 16? É provavelmente devido a uma estimativa do limite de confiança.

Interpretação do resultado R, que é semelhante ao SAS: A probabilidade de falha em t = 16 é 50%, em t = 40 é 30%, em t = 94 é 20%.

Esqueça de tentar entender o problema usando três pacotes de análise. Escolha uma, entenda as opções que você pode definir para censurar e use-a. Um bom link para R: aqui

Gary Chung
fonte

O contexto da pergunta é uma recaída de uma condição. Estou interessado no tempo da recaída. Infelizmente, as visitas de acompanhamento não são diárias e, portanto, se na visita número 4 ocorreu a recaída, não sei onde ocorreu entre 3 (+ um dia) e 4. A censura é correta e, dentre 10 observações, apenas 1 foi censurado (94, infinito). Seria correto dizer que 50% sobreviveram mais de 28 dias?

User45442

e mais uma pergunta, como a censura por intervalo é baseada em dados desconhecidos, qual a eficiência da estimativa com base em 10 observações? As estimativas são realmente melhores do que as que eu obteria da maneira tendenciosa da imputação do ponto médio, na qual tomo a média de cada intervalo para representar o intervalo?

User45442

Eu não diria que 50% sobreviveram 28 dias ou mais, já que você não sabe disso pela mesma razão de incerteza durante o intervalo que você apontou. Você pode dizer que 50% sobreviveram ao dia 16. Em relação à questão do intervalo, você apresenta uma questão muito real relacionada à imprecisão dos dados. Usar um método de imputação de ponto médio faz sentido, mas a abordagem amplamente aceita para sua situação é a estimativa de Kaplan Meier .

Gary Chung

@ GaryChung: você está ignorando completamente o aspecto de censura por intervalo desses dados.

Cliff AB