Esse é um problema que me atormenta há muito tempo e não encontrei boas respostas em livros didáticos, no Google ou no Stack Exchange.
Eu tenho um conjunto de dados de> 100.000 pacientes para os quais quatro tratamentos estão sendo comparados. A questão da pesquisa é se a sobrevivência é diferente entre esses tratamentos após o ajuste para várias variáveis clínicas / demográficas. A curva KM não ajustada está abaixo.
Os riscos não proporcionais foram indicados por todos os métodos que eu usei (por exemplo, curvas de sobrevivência log-log não ajustadas, bem como interações com o tempo e a correlação dos resíduos de Schoenfield e o tempo de sobrevivência classificado, que foram baseados nos modelos de Cox PH ajustados). A curva de sobrevivência log-log está abaixo. Como você pode ver, a forma de não proporcionalidade é uma bagunça. Embora nenhuma das comparações de dois grupos seja muito difícil de lidar isoladamente, o fato de eu ter seis comparações está realmente me intrigando. Meu palpite é que não serei capaz de lidar com tudo em um modelo.
Estou procurando recomendações sobre o que fazer com esses dados. A modelagem desses efeitos usando um modelo estendido de Cox é provavelmente impossível, dado o número de comparações e formas diferentes de não proporcionalidade. Dado que eles estão interessados em diferenças de tratamento, um modelo estratificado geral não é uma opção porque não me permite estimar essas diferenças.
Portanto, sinta-se à vontade para me separar, mas eu estava pensando em inicialmente estimar um modelo estratificado para obter os efeitos de outras covariáveis (testar a suposição de não interação, é claro) e depois re-estimar modelos Cox multivariáveis separados para cada comparação de dois grupos (6 modelos no total). Dessa forma, posso abordar a forma de não proporcionalidade para cada comparação de dois grupos e obter um número estimado de RHs menos errado. Entendo que os erros padrão seriam tendenciosos, mas, dado o tamanho da amostra, tudo provavelmente será "estatisticamente" significativo.
fonte
Respostas:
Pergunta fantástica respostas fantásticas. Acrescentarei que você deve considerar um modelo que faz suposições muito diferentes, como o modelo de sobrevivência lognormal. Use a função inversa normal para o y_axis em vez de log-log. Ainda é necessário covariável ajuste. Veja também a normalidade dos resíduos estratificados pelo tratamento. Isso é abordado em um estudo de caso próximo ao final das anotações do meu curso em http://biostat.mc.vanderbilt.edu/rms
fonte
Você certamente não tem riscos proporcionais marginais . Isso não significa que você não tem riscos proporcionais condicionais !
Para explicar com mais profundidade, considere a seguinte situação: suponha que tenhamos o grupo 1, que é muito homogêneo e tem risco constante = 1. Agora, no grupo dois, temos uma população heterogênea; 50% estão em risco menor que o grupo 1 (risco = 0,5) e o restante está em risco maior que o grupo 1 (risco = 3). Claramente, se soubéssemos se todos no grupo 2 eram sujeitos de risco maior ou menor, todos teriam riscos proporcionais. Este é o perigo condicional.
Mas vamos supor que não sabemos (ou ignoramos) se alguém do grupo 2 está em risco alto ou baixo. Então, a distribuição marginal para eles é a de um modelo de mistura: 50% de chance de apresentarem perigo = 0,5, 50% de apresentarem risco = 3. Abaixo, forneço algum código R junto com um gráfico dos dois riscos.
Vemos riscos marginais claramente não proporcionais! Mas note que, se sabia se os sujeitos do grupo 2 eram de alto risco ou assuntos de baixo risco, que poderia ter riscos proporcionais.
Então, como isso afeta você? Bem, você mencionou que tem muitas outras covariáveis sobre esses assuntos. É muito possível que, quando ignoramos essas covariáveis, os riscos não sejam proporcionais, mas após o ajuste para eles, você pode capturar as causas da heterogeneidade nos diferentes grupos e corrigir o problema de riscos não proporcionais.
fonte