Na análise de sobrevivência, por que usamos modelos semi-paramétricos (riscos proporcionais de Cox) em vez de modelos totalmente paramétricos?

24

Venho estudando o modelo de Riscos proporcionais de Cox, e essa pergunta é encoberta na maioria dos textos.

Cox propôs ajustar os coeficientes da função Hazard usando um método de probabilidade parcial, mas por que não ajustar os coeficientes de uma função de sobrevivência paramétrica usando o método de máxima verossimilhança e um modelo linear?

Nos casos em que você tenha censurado dados, poderá encontrar a área abaixo da curva. Por exemplo, se sua estimativa for 380 com desvio padrão de 80 e uma amostra for censurada> 300, haverá uma probabilidade de 84% para essa amostra no cálculo de probabilidade, assumindo erro normal.

user1956609
fonte
Por mais que eu goste de ter perguntas sobre ciências atuariais aqui, devo dizer que essa pergunta provavelmente terá uma resposta melhor no site de estatísticas, Cross Validated. Você pode solicitar que um moderador migre-o.
Graphth 18/07/2013
Tudo bem, não percebi que existia. Não sabe como solicitar uma migração. Por favor migrar?
@Graphth, eu também não percebi que havia um ... Eu não o encontrei na lista "todos os sites", você poderia criar um link para ele aqui? Obrigado

Respostas:

27

Se você conhece a distribuição paramétrica que seus dados seguem, o uso de uma abordagem de máxima verossimilhança e a distribuição fazem sentido. A vantagem real da regressão dos riscos proporcionais de Cox é que você ainda pode ajustar os modelos de sobrevivência sem conhecer (ou assumir) a distribuição. Você dá um exemplo usando a distribuição normal, mas a maioria dos tempos de sobrevivência (e outros tipos de dados para os quais a regressão Cox PH é usada) não chega nem perto de seguir uma distribuição normal. Alguns podem seguir uma distribuição log-normal, Weibull ou outra paramétrica, e se você estiver disposto a fazer essa suposição, a abordagem paramétrica de probabilidade máxima é ótima. Mas, em muitos casos do mundo real, não sabemos qual é a distribuição apropriada (ou mesmo uma aproximação suficientemente próxima). Com censura e covariáveis, não podemos fazer um histograma simples e dizer "isso parece uma ... distribuição para mim". Portanto, é muito útil ter uma técnica que funcione bem sem a necessidade de uma distribuição específica.

Por que usar o perigo em vez da função de distribuição? Considere a seguinte declaração: "As pessoas do grupo A têm duas vezes mais chances de morrer aos 80 anos do que as do grupo B". Agora isso pode ser verdade porque as pessoas do grupo B tendem a viver mais do que as do grupo A, ou pode ser porque as pessoas do grupo B tendem a viver vidas mais curtas e a maioria delas está morta muito antes dos 80 anos, dando uma probabilidade muito pequena deles morrendo aos 80 anos, enquanto um número suficiente de pessoas no grupo A vive aos 80 anos para que um número razoável deles morra nessa idade, dando uma probabilidade muito maior de morte nessa idade. Portanto, a mesma afirmação pode significar estar no grupo A é melhor ou pior do que estar no grupo B. O que faz mais sentido é dizer, das pessoas (em cada grupo) que viveram até 80 anos, que proporção morrerá antes de completar 81 anos. Esse é o perigo (e o risco é uma função da função de distribuição / função de sobrevivência / etc.). O risco é mais fácil de trabalhar no modelo semi-paramétrico e pode fornecer informações sobre a distribuição.

Greg Snow
fonte
7
Boa resposta. O que é único no tempo é que ele passa em uma direção e, uma vez que passamos por um período de alto risco, estamos principalmente interessados ​​nos riscos atualmente em vigor. É isso que a função de risco nos diz.
18713 Frank Harrell
2
Outro ponto que vale a pena acrescentar é que, com dados censurados, a inspeção de suposições distributivas pode ser muito difícil. Por exemplo, suponha que apenas 20% de seus participantes observem um evento. Tentar determinar se as caudas da distribuição seguem uma distribuição Weibull claramente não será possível! A Cox-PH modelo um pouco escamoteia a questão (mas você tem que ter muito cuidado com a perigos assunção proporcional se você quiser extrapolar para as áreas de vezes que foram altamente censurados)
Cliff AB
16

"Nós" não necessariamente. A gama de ferramentas de análise de sobrevivência varia desde modelos totalmente não paramétricos, como o método de Kaplan-Meier, até modelos totalmente paramétricos, nos quais você especifica a distribuição do risco subjacente. Cada um tem suas vantagens e desvantagens.

Os métodos semi-paramétricos, como o modelo de riscos proporcionais de Cox, permitem que você não especifique a função de risco subjacente. Isso pode ser útil, pois nem sempre sabemos a função de risco subjacente e, em muitos casos, também não nos importamos . Por exemplo, muitos estudos epidemiológicos querem saber "A exposição X diminui o tempo até o evento Y?" Eles se preocupam com a diferença nos pacientes que têm X e que não têm X. Nesse caso, o risco subjacente não importa realmente, e o risco de erros de especificação é pior do que as consequências de não saber.

No entanto, há momentos em que isso também não é verdade. Eu trabalhei com modelos totalmente paramétricos porque o risco subjacente era de interesse.

Fomite
fonte
11
"... e o risco de especificar mal é pior do que as consequências de não saber." Isso foi muito útil, obrigado.
Você poderia dar um exemplo de quando o risco subjacente seria interessante?
Dan Chaltiel 21/03
11
@ DanChaltiel Qualquer estimativa que pretenda entrar em um modelo matemático ou similar seria um exemplo - a função de risco subjacente é de particular interesse.
Fomite 02/04