Em R, estou fazendo análise de dados de sobrevivência de pacientes com câncer.
Eu tenho lido coisas muito úteis sobre análise de sobrevivência no CrossValidated e em outros lugares e acho que entendi como interpretar os resultados da regressão de Cox. No entanto, um resultado ainda me incomoda ...
Estou comparando sobrevivência versus gênero. As curvas de Kaplan-Meier são claramente favoráveis às pacientes do sexo feminino (verifiquei várias vezes se a lenda que acrescentei está correta, a paciente com sobrevida máxima de 4856 dias é realmente uma mulher):
E a regressão de Cox está retornando:
Call:
coxph(formula = survival ~ gender, data = Clinical)
n= 348, number of events= 154
coef exp(coef) se(coef) z Pr(>|z|)
gendermale -0.3707 0.6903 0.1758 -2.109 0.035 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
exp(coef) exp(-coef) lower .95 upper .95
gendermale 0.6903 1.449 0.4891 0.9742
Concordance= 0.555 (se = 0.019 )
Rsquare= 0.012 (max possible= 0.989 )
Likelihood ratio test= 4.23 on 1 df, p=0.03982
Wald test = 4.45 on 1 df, p=0.03499
Score (logrank) test = 4.5 on 1 df, p=0.03396
A razão de gendermale
risco (HR) para pacientes do sexo masculino ( ) é 0,6903. A maneira como eu interpretaria isso (sem olhar para a curva de Kaplan-Meier) é: como a FC é <1, ser paciente do sexo masculino é protetor. Ou, mais precisamente, uma paciente do sexo feminino tem 1 / 0,6903 = exp (-coef) = 1,449 a mais de morrer em um momento específico do que um homem.
Mas isso não parece o que dizem as curvas de Kaplan-Meier! O que há de errado com minha interpretação?
fonte
Respostas:
Este é um exemplo muito bom de riscos não proporcionais OU o efeito de 'esgotamento' na análise de sobrevivência. Vou tentar explicar
Primeiro, observe bem sua curva de Kaplan-Meier (KM): você pode ver na primeira parte (até cerca de 3000 dias) a proporção de homens ainda vivos na população em risco no momento t é maior que a proporção de mulheres (ou seja, a linha azul é 'mais alta' que a vermelha). Isso significa que, na verdade, o gênero masculino é 'protetor' para o evento (morte) estudado. Consequentemente, a taxa de risco deve estar entre 0 e 1 (e o coeficiente deve ser negativo).
No entanto, após o dia 3000, a linha vermelha é mais alta! Isso de fato sugere o contrário. Com base apenas neste gráfico de KM, isso sugeriria um risco não proporcional. Nesse caso, 'não proporcional' significa que o efeito da sua variável independente (sexo) não é constante ao longo do tempo. Em outras palavras, a taxa de risco é viável para mudar à medida que o tempo avança. Como explicado acima, este parece ser o caso. O modelo de risco proporcional regular Cox não acomoda tais efeitos. Na verdade, uma das principais suposições é que os riscos são proporcionais! Agora você também pode modelar riscos não proporcionais, mas isso está além do escopo desta resposta.
Há um comentário adicional a ser feito: essa diferença pode dever-se ao fato de os riscos reais serem não proporcionais ouo fato de haver muita variação nas estimativas de cauda das curvas de KM. Observe que, neste momento, o grupo total de 348 pacientes declinou para uma população muito pequena ainda em risco. Como você pode ver, ambos os grupos de gênero têm pacientes que estão passando pelo evento e pacientes sendo censurados (as linhas verticais). À medida que a população em risco diminui, as estimativas de sobrevivência se tornam menos certas. Se você tivesse plotado intervalos de confiança de 95% nas linhas de KM, veria a largura do intervalo de confiança aumentar. Isso é importante para a estimativa de riscos também. Simplificando, como a população em risco e a quantidade de eventos no período final do seu estudo é baixa, esse período contribuirá menos para as estimativas do seu modelo inicial de cox.
Por fim, isso explicaria por que o risco (constante assumida ao longo do tempo) está mais alinhado com a primeira parte do seu KM, em vez do ponto final final.
EDIT: veja o comentário pontual de @ Scrotchi à pergunta original: Como afirmado, o efeito de números baixos no período final do estudo é que as estimativas dos perigos nesses momentos são incertas. Consequentemente, você também tem menos certeza de que a aparente violação da suposição de riscos proporcionais não se deve ao acaso. Como afirma o @ scrotchi, a suposição de PH pode não ser tão ruim assim.
fonte
Você está confuso quanto à natureza da sua saída. Esses dados dizem: Se você é homem, é mais provável que viva mais que uma mulher; As fêmeas têm pior sobrevivência do que os machos. Isso se reflete na saída da regressão, pois o efeito de ser HOMEM é ter uma taxa de risco de log negativa, por exemplo, os homens têm menor risco que as mulheres. Na maioria dos momentos do evento (quando as curvas "pisam"), a curva de sobrevivência masculina é maior que a das mulheres, os resultados e o gráfico do modelo de Cox concordam muito bem. As curvas KM confirmam isso, assim como a saída do modelo de regressão. A "cruz" é inconseqüente.
As curvas de KM se comportam mal nas caudas, especialmente quando se aproximam de 0% e / ou diminuem de forma plana. O eixo Y é a proporção que sobrevive. Com relativamente poucos que sobrevivem por muito tempo no estudo e poucos que morrem na época, a confiabilidade das estimativas é intuitiva e graficamente terrível. Observo, por exemplo, que há muito menos mulheres na sua coorte do que homens e que, após 2.800 dias, restam menos de 10 mulheres na coorte, como evidenciado pelos passos na curva de sobrevida e falta de eventos censurados.
Como uma observação interessante, como as análises de sobrevivência usando curvas de KM, testes de log rank e modelos de Cox usam o tempo de sobrevivência classificado , a duração real da sobrevivência é um tanto irrelevante. Sua fêmea sobrevivente mais longa poderia, de fato, sobreviver por mais 100 anos e não teria impacto nas análises. Isso ocorre porque a função de risco de linha de base (não tendo observado nenhum evento nos últimos 13 anos) presumiria que não havia risco de morte nos próximos 87 anos, pois ninguém morreu naquela época.
Se você deseja que um RH robusto obtenha ICs e valores de p de 95% corretos para isso, especifique
robust=TRUE
no Cox-PH para obter erros padrão sanduíche. Nesse caso, a FC é uma FC com média de tempo comparando homens e mulheres em todos os momentos de falha.fonte