Modelo de risco proporcional de Cox e amostra selecionada não aleatoriamente

9

Existem métodos para corrigir o viés no modelo de risco proporcional de Cox causado por amostra selecionada não aleatoriamente (algo como a correção de Heckman)?

Antecedentes :
Digamos que a situação seja a seguinte:
- Nos primeiros dois anos, todos os clientes são aceitos.
- Após esses dois anos, é construído um modelo Cox PH. O modelo prevê quanto tempo os clientes usarão nosso serviço.
- Devido à política da empresa a partir de agora, apenas clientes com probabilidade de sobrevivência de 3 meses maior que 0,5 são aceitos, os demais são rejeitados.
- Depois de mais dois anos, um novo modelo precisa ser construído. O problema é que temos como alvo apenas clientes aceitos e o uso somente desses clientes pode causar algum viés sério.

Tomek Tarczynski
fonte
11
Qual é o objetivo dessa análise? Um modelo Cox PH não prevê explicitamente o tempo até a falha, a menos que você esteja incorporando alguns métodos de suavização ou modelagem paramétrica. Quais variáveis ​​de estratificação / ajuste estão neste modelo?
22412 AdamO

Respostas:

4

Existem soluções propostas para modelos paramétricos de risco. Dê uma olhada nestes:

Prieger, James, 2000. "Um modelo de seleção paramétrica generalizada para dados não normais", Working Papers 00-9, Universidade da Califórnia em Davis, Departamento de Economia.

Boehmke, Frederick J., Daniel Morey e Megan Shannon. 2006. "Modelos de viés de seleção e de duração em tempo contínuo: conseqüências e uma solução proposta". American Journal of Political Science 50 (1): 192-207.

Há código para o artigo posterior no Stata, pacote "dursel"

No entanto, não conheço uma solução para o modelo semiparamétrico de Cox.

jorpppp
fonte
O problema de calcular abordagens paramétricas com o modelo semi-paramétrico de Cox é que esse problema específico está realmente relacionado a dados ausentes. Apesar de o autor não ter descrito como está obtendo previsões absolutas de risco de um modelo de Cox, uma vez que temos uma previsão de risco com base nos parâmetros do modelo (e estimativas da função de risco de linha de base), a probabilidade de inclusão na segunda fase dos dados A coleta depende da previsão de risco original, portanto a falta depende das variáveis ​​observadas, ou seja, falta de dados aleatórios.
AdamO
2

A resposta simples é a ponderação. Ou seja, você pode usar pesos para padronizar grupos no grupo "aceito" para a população de interesse. O problema que surge do uso de tais pesos em uma análise combinada usando as fases do primeiro e do segundo ano de 2 anos é que os pesos estimados da população e os parâmetros agora são dependentes. A abordagem de pseudo-probabilidade é normalmente usada (nesse caso, seria algum tipo de probabilidade pseudo-parcial) em que você ignora a dependência entre pesos de amostra e estimativas de parâmetros. No entanto, em muitas circunstâncias práticas (e essa não é diferente), é necessário contabilizar essa dependência. A questão da criação de um estimador eficiente das taxas de risco é difícil, e até onde eu sei aberta.

Estimativa melhorada de Horvitz-Thompson dos parâmetros do modelo de amostras estratificadas em duas fases: aplicações em epidemiologia .

O artigo discute os métodos de pesquisa, geralmente aplicados na regressão logística, mas você também pode ponderar os dados de sobrevivência. Algumas considerações importantes que você deixou de mencionar são se está interessado em criar uma previsão que se aplique a toda a população ou à população "qualificada" com base nas estimativas de dois anos ou à população "qualificada" com base nas modelo. Você também não mencionou exatamente como esse modelo de "previsão" é criado a partir de um modelo de Cox, pois os valores ajustados de um modelo de Cox não podem ser interpretados como riscos. Presumo que você calcule as taxas de risco e obtenha uma estimativa simplificada da função de risco da linha de base.

AdamO
fonte