Eu tenho aprendido sobre o modelo de risco proporcional de Cox. Eu tenho muita experiência montagem modelos de regressão logística e modelos para construir intuição Eu estive comparando ajuste usando coxph
a partir do R "sobrevivência", com modelos de regressão logística ajuste usando glm
com family="binomial"
.
Se eu executar o código:
library(survival)
s = Surv(time=lung$time, event=lung$status - 1)
summary(coxph(s ~ age, data=lung))
summary(glm(status-1 ~ age, data=lung, family="binomial"))
Recebo valores de p para idade de 0,0419 e 0,0254, respectivamente. Da mesma forma, se eu usar o sexo como preditor, com ou sem idade.
Acho isso intrigante porque acho que levar em consideração a quantidade de tempo decorrido ao ajustar o modelo daria mais poder estatístico do que apenas tratar a morte como um resultado binário, enquanto os valores de p pareceriam consistentes com um com menos poder estatístico. O que está acontecendo aqui?
Respostas:
O modelo de regressão logística assume que a resposta é um teste de Bernoulli (ou mais geralmente um binômio, mas por simplicidade, manteremos 0-1). Um modelo de sobrevivência assume que a resposta é tipicamente um momento para o evento (novamente, há generalizações disso que ignoraremos). Outra maneira de dizer isso é que as unidades estão passando por uma série de valores até que um evento ocorra. Não é que uma moeda seja lançada discretamente em cada ponto. (Isso poderia acontecer, é claro, mas você precisaria de um modelo para medidas repetidas - talvez um GLMM.)
Seu modelo de regressão logística considera cada morte como um lançamento de moeda que ocorreu nessa idade e surgiu como coroa. Da mesma forma, considera cada dado censurado como um único lançamento de moeda que ocorreu na idade especificada e surgiu. O problema aqui é que isso é inconsistente com o que os dados realmente são.
Aqui estão alguns gráficos dos dados e a saída dos modelos. (Observe que levanto as previsões do modelo de regressão logística para a previsão de vida, para que a linha corresponda ao gráfico de densidade condicional.)
Pode ser útil considerar uma situação em que os dados foram apropriados para uma análise de sobrevivência ou uma regressão logística. Imagine um estudo para determinar a probabilidade de um paciente ser readmitido no hospital dentro de 30 dias após a alta, sob um novo protocolo ou padrão de atendimento. No entanto, todos os pacientes são acompanhados até a readmissão e não há censura (isso não é muito realista), portanto, o tempo exato de readmissão pode ser analisado com a análise de sobrevida (a saber, um modelo de riscos proporcionais de Cox aqui). Para simular essa situação, usarei distribuições exponenciais com taxas 0,5 e 1 e usarei o valor 1 como ponto de corte para representar 30 dias:
Nesse caso, vemos que o valor de p do modelo de regressão logística (
0.163
) foi superior ao valor de p de uma análise de sobrevivência (0.005
). Para explorar ainda mais essa idéia, podemos estender a simulação para estimar o poder de uma análise de regressão logística versus uma análise de sobrevivência e a probabilidade de que o valor p do modelo Cox seja menor que o valor p da regressão logística . Também usarei 1.4 como limite, para não prejudicar a regressão logística usando um ponto de corte abaixo do ideal:Portanto, o poder da regressão logística é menor (cerca de 75%) do que a análise de sobrevivência (cerca de 93%) e 90% dos valores de p da análise de sobrevivência foram menores que os valores de p correspondentes da regressão logística. Levando em consideração os tempos de latência, em vez de apenas um valor menor ou maior que algum limite, gera mais poder estatístico como você havia intuído.
fonte