Existem métodos para corrigir o viés no modelo de risco proporcional de Cox causado por amostra selecionada não aleatoriamente (algo como a correção de Heckman)?
Antecedentes :
Digamos que a situação seja a seguinte:
- Nos primeiros dois anos, todos os clientes são aceitos.
- Após esses dois anos, é construído um modelo Cox PH. O modelo prevê quanto tempo os clientes usarão nosso serviço.
- Devido à política da empresa a partir de agora, apenas clientes com probabilidade de sobrevivência de 3 meses maior que 0,5 são aceitos, os demais são rejeitados.
- Depois de mais dois anos, um novo modelo precisa ser construído. O problema é que temos como alvo apenas clientes aceitos e o uso somente desses clientes pode causar algum viés sério.
Respostas:
Existem soluções propostas para modelos paramétricos de risco. Dê uma olhada nestes:
Prieger, James, 2000. "Um modelo de seleção paramétrica generalizada para dados não normais", Working Papers 00-9, Universidade da Califórnia em Davis, Departamento de Economia.
Boehmke, Frederick J., Daniel Morey e Megan Shannon. 2006. "Modelos de viés de seleção e de duração em tempo contínuo: conseqüências e uma solução proposta". American Journal of Political Science 50 (1): 192-207.
Há código para o artigo posterior no Stata, pacote "dursel"
No entanto, não conheço uma solução para o modelo semiparamétrico de Cox.
fonte
A resposta simples é a ponderação. Ou seja, você pode usar pesos para padronizar grupos no grupo "aceito" para a população de interesse. O problema que surge do uso de tais pesos em uma análise combinada usando as fases do primeiro e do segundo ano de 2 anos é que os pesos estimados da população e os parâmetros agora são dependentes. A abordagem de pseudo-probabilidade é normalmente usada (nesse caso, seria algum tipo de probabilidade pseudo-parcial) em que você ignora a dependência entre pesos de amostra e estimativas de parâmetros. No entanto, em muitas circunstâncias práticas (e essa não é diferente), é necessário contabilizar essa dependência. A questão da criação de um estimador eficiente das taxas de risco é difícil, e até onde eu sei aberta.
Estimativa melhorada de Horvitz-Thompson dos parâmetros do modelo de amostras estratificadas em duas fases: aplicações em epidemiologia .
O artigo discute os métodos de pesquisa, geralmente aplicados na regressão logística, mas você também pode ponderar os dados de sobrevivência. Algumas considerações importantes que você deixou de mencionar são se está interessado em criar uma previsão que se aplique a toda a população ou à população "qualificada" com base nas estimativas de dois anos ou à população "qualificada" com base nas modelo. Você também não mencionou exatamente como esse modelo de "previsão" é criado a partir de um modelo de Cox, pois os valores ajustados de um modelo de Cox não podem ser interpretados como riscos. Presumo que você calcule as taxas de risco e obtenha uma estimativa simplificada da função de risco da linha de base.
fonte