Suponha que eu tenha construído um modelo de previsão para a ocorrência de uma doença específica em um conjunto de dados (o conjunto de dados de construção do modelo) e agora quero verificar o quão bem o modelo funciona em um novo conjunto de dados (o conjunto de dados de validação). Para um modelo construído com regressão logística, eu calcularia a probabilidade prevista para cada pessoa no conjunto de dados de validação com base nos coeficientes de modelo obtidos no conjunto de dados de construção de modelo e, depois de dicotomizar essas probabilidades com algum valor de corte, eu posso construir uma tabela 2x2 isso me permite calcular a verdadeira taxa positiva (sensibilidade) e a verdadeira taxa negativa (especificidade). Além disso, eu posso construir toda a curva ROC variando o ponto de corte e, em seguida, obter a AUC para o gráfico ROC.
Agora, suponha que eu realmente tenha dados de sobrevivência. Portanto, usei um modelo de riscos proporcionais de Cox no conjunto de dados de criação de modelos e agora quero verificar como o modelo funciona no conjunto de dados de validação. Como o risco da linha de base não é uma função paramétrica nos modelos de Cox, não vejo como posso obter a probabilidade de sobrevivência prevista para cada pessoa no conjunto de dados de validação com base nos coeficientes do modelo obtidos no conjunto de dados de construção do modelo. Então, como posso verificar como o modelo funciona no conjunto de dados de validação? Existem métodos estabelecidos para fazer isso? E se sim, eles são implementados em algum software? Agradecemos antecipadamente por todas as sugestões!
fonte
Sei que essa pergunta é bastante antiga, mas o que fiz quando encontrei o mesmo problema foi usar a função de previsão para obter uma "pontuação" para cada sujeito no conjunto de validação. Em seguida, dividiu-se o sujeito de acordo com a pontuação maior ou menor que a mediana e plotou a curva de Kaplan-Meier. Isso deve mostrar uma separação dos sujeitos, se o seu modelo é preditivo. Também testei a correlação do escore (na verdade, seu ln [para distribuição normal]) com a sobrevivência usando a função coxph do pacote de sobrevivência em R.
fonte