Como determino se um modelo de sobrevivência com dados ausentes é apropriado?

9

Simplificando um pouco, tenho cerca de um milhão de registros que registram o tempo de entrada e saída das pessoas em um sistema que dura cerca de dez anos. Todo registro tem um horário de entrada, mas nem todo registro tem um horário de saída. O tempo médio no sistema é de ~ 1 ano.

Os horários de saída ausentes ocorrem por dois motivos:

  1. A pessoa não saiu do sistema no momento em que os dados foram capturados.
  2. O horário de saída da pessoa não foi registrado. Isso acontece por dizer 50% dos registros

As questões de interesse são:

  1. As pessoas estão gastando menos tempo no sistema e quanto menos tempo.
  2. Há mais tempos de saída sendo gravados e quantos.

Podemos modelar isso dizendo que a probabilidade de uma saída ser registrada varia linearmente com o tempo e que o tempo no sistema possui um Weibull cujos parâmetros variam linearmente com o tempo. Podemos então fazer uma estimativa de máxima probabilidade dos vários parâmetros e observar os resultados e considerá-los plausíveis. Escolhemos a distribuição Weibull porque ela parece ser usada na medição de vidas úteis e é divertido dizer em oposição a ajustar os dados melhor do que uma distribuição gama.

Onde devo procurar uma pista sobre como fazer isso corretamente? Nós somos um tanto matematicamente esclarecidos, mas não extremamente esclarecidos estatisticamente.

deinst
fonte

Respostas:

5

A maneira básica de verificar se seus dados são Weibull é plotar o log de riscos cumulativos versus o log de tempos e verificar se uma linha reta pode ser uma boa opção. O risco cumulativo pode ser encontrado usando o estimador não paramétrico de Nelson-Aalen. Existem diagnósticos gráficos semelhantes para a regressão Weibull se você ajustar seus dados com covariáveis ​​e seguir algumas referências.

O texto de Klein & Moeschberger é bastante bom e cobre muito terreno com a construção / diagnóstico de modelos para modelos paramétricos e semi-paramétricos (embora principalmente o último). Se você trabalha no R, o livro de Theneau é muito bom (acredito que ele escreveu o pacote de sobrevivência ). Ele abrange muitos modelos de PH Cox e associados, mas não me lembro se ele tem muita cobertura de modelos paramétricos, como o que você está construindo.

BTW, esse é um milhão de indivíduos, cada um com uma entrada / saída ou eventos recorrentes de entrada / saída para um grupo menor de pessoas? Você está condicionando sua probabilidade de explicar o mecanismo de censura?

ars
fonte
Obrigado, é exatamente isso que eu estava procurando. Este é essencialmente um milhão de sujeitos, cada um com um horário de entrada e saída. Sim, estamos condicionados a prestar contas da censura.
2741010
2

Você pode usar o modelo estimado para prever os horários de saída de todas as pessoas em seu sistema. Você pode comparar os tempos de saída estimados com os tempos de saída reais (onde você tem esses dados) e calcular uma métrica como o RMSE para avaliar o quão boas são suas previsões e, por sua vez, fornecer uma noção do ajuste do modelo. Veja também este link .


fonte
11
Com um milhão de pontos e um modelo de 8 parâmetros, um teste de qualidade de ajuste como o qui-quadrado me diz que não há praticamente nenhuma chance de que o modelo esteja correto. (O que não é surpreendente, pois há infinitos fatores que influenciam a realidade que não estão no modelo) O RMSE me dá uma noção de quão bom o modelo se ajusta aos dados, mas não me dá uma noção de se há um modelo melhor
deinst 27/07/10
Bem, para descobrir se existe um modelo melhor, você pode experimentar diferentes formulações ou usar vários gráficos (por exemplo, tempos de saída versus tempo) para verificar se os dados são consistentes com as suposições do seu modelo. Você também pode plotar os tempos de saída previstos para uma pequena amostra selecionada aleatoriamente em relação aos tempos reais para obter idéias de melhoria de modelo.