Como avaliar a qualidade do ajuste para funções de sobrevivência

9

Sou iniciante na análise de sobrevivência, embora tenha algum conhecimento em classificação e regressão.

Para regressão, temos estatísticas quadradas de MSE e R. Mas como podemos dizer que o modelo de sobrevivência A é superior ao modelo de sobrevivência B, além de algum tipo de gráfico (curva KM)?

Se possível, explique a diferença com um exemplo (por exemplo, pacote rpart em R). Como você pode mostrar que uma árvore de sobrevivência da CART é melhor que outra árvore de sobrevivência da CART? Quais métricas podem ser usadas?

inundação
fonte
3
Existem vários tipos de análise de sobrevivência. Alguns deles são realmente baseados em regressão. Alguns deles, como o KM, podem ser mais facilmente vistos como estimadores de estatísticas relacionadas à sobrevivência.
Alexis19
Obrigado por seus esforços contínuos para melhorar sua pergunta. Eu suspeito que é responsável / apropriado para o CV agora. Eu o nomeei para reabertura. Vamos ver se os outros concordam. Pode ser útil postar dois modelos de sobrevivência do tipo CART para as pessoas explicarem esses problemas.
gung - Restabelece Monica
11
Ben, então basicamente você está dizendo que em uma regressão proporcional aos riscos de Cox, não há (até agora) uma boa maneira de avaliar a qualidade do ajuste? R-Square não leva a bons resultados porque não consegue lidar corretamente com observações censuradas e sem censura? Você está falando de Harrells c, entendi direito que o método não é aplicável a uma regressão Cox-PH?
precisa

Respostas:

9

R2(descrito em outra resposta) é que depende muito da distribuição de censura dos seus dados. Outras coisas naturais que você pode observar, como a taxa de probabilidade do modelo nulo, também têm esse problema. (Isso ocorre basicamente porque a contribuição de um ponto de dados censurado para a probabilidade é muito diferente da contribuição de um ponto de dados no qual o evento é observado, porque um deles vem de um PDF e um de CDF.) Vários pesquisadores têm propuseram maneiras de contornar isso, mas as que eu vi geralmente exigem que você tenha um modelo de distribuição de censura ou algo igualmente impraticável. Eu não analisei o quão ruim essa dependência é na prática; portanto, se a sua censura for bastante moderada, você ainda poderá analisar as estatísticas baseadas na razão de probabilidade. Para modelos CART de sobrevivência,

τtambém é menos sensível que as estatísticas acima, portanto, talvez você não queira escolher entre modelos com base nele, se a diferença entre eles for pequena; é mais útil como um índice interpretável de desempenho geral do que como uma maneira de comparar diferentes modelos.

(Por fim, é claro, se você tem um objetivo específico em mente para os modelos - ou seja, se você sabe qual é a sua função de perda de previsão - você sempre pode avaliá-los de acordo com a função de perda! Mas eu acho que você ' não tem tanta sorte ...)

Para uma discussão mais aprofundada das estatísticas da razão de verossimilhança e do c de Harrell , você deve examinar o excelente livro didático de Harrell, Regression Modeling Strategies . A seção sobre avaliação de modelos de sobrevivência é §19.10, pp. 492-493. Sinto muito, mas não posso lhe dar uma resposta definitiva, mas não acho que seja um problema resolvido!

Ben Kuhn
fonte
5

As regressões de riscos proporcionais de Cox para dados de sobrevivência podem ser consideradas como correspondendo às regressões padrão em muitos aspectos. Por exemplo, as regressões de Cox também fornecem erros padrão residuais e estatísticas do quadrado R. Veja a coxphfunção no survivalpacote R. (Você pode pensar em curvas de KM como correspondendo a análises não paramétricas nas estatísticas padrão. Como você incorporaria um teste não paramétrico no CART?) Na prática com dados clínicos, os erros padrão residuais tendem a ser altos e os valores do quadrado R baixos na regressão de Cox.

Assim, regressões padrão e regressões de Cox têm requisitos e limitações semelhantes. Você deve verificar se os dados se encaixam nas premissas subjacentes, que na análise de Cox incluem ainda a suposição de que os riscos comparados são proporcionais ao longo do tempo. Você ainda precisará evitar o ajuste excessivo e validar seu modelo. E como eu entendo o CART, embora eu não o use, você ainda enfrentará as dificuldades colocadas ao comparar modelos não aninhados.

EdM
fonte
Obrigado pela sua resposta sobre a diferença e as relações entre regressão e regressão de Cox. Mas quero saber como comparar dois modelos de sobrevivência de árvore de decisão rpart (CART).
floodking 30/09/14
O artigo de acesso aberto, vinculado em projecteuclid.org/euclid.ssu/1315833185, é uma revisão e comparação relativamente recentes de métodos para construir e escolher árvores de sobrevivência, com base em rparte outros pacotes e códigos R.
EdM
Obrigado por apontar o papel. Vou ler o jornal agora.
floodking