Técnica adequada de inicialização para dados em cluster?

16

Eu tenho uma pergunta sobre a técnica adequada de inicialização para usar com dados em que um cluster forte está presente.

Fui encarregado de avaliar um modelo preditivo de efeitos mistos multivariados nos dados de reivindicações de seguros, pontuando o modelo de linha de base atual em dados de reivindicações mais recentes, a fim de determinar quão bem o modelo prevê quais episódios de atendimento contêm a maior frequência de sessões (superior Percentil 95). Sensibilidade, especificidade e valor preditivo positivo (PPV) serão usados ​​para avaliar a eficácia do modelo.

O bootstrapping parece o caminho certo para criar intervalos de confiança para as porcentagens de sensibilidade, especificidade e PPV. Infelizmente, um bootstrap ingênuo não é apropriado, uma vez que os dados das reivindicações são 1) correlacionados pelo prestador de cuidados, 2) agrupados em episódios de atendimento com visitas mais frequentes nos meses anteriores ao episódio de atendimento (portanto, existe alguma autocorrelação). Uma variação na técnica de auto-inicialização de blocos móveis seria apropriada aqui?

Ou talvez um procedimento de inicialização de três etapas funcione: 1) amostra com substituição de prestadores distintos nos dados; depois 2) amostra com substituição de episódios distintos de atendimento por prestadores selecionados; em seguida, 3) amostra com substituição de reivindicações distintas dentro de cada episódio selecionado.

Muito obrigado por todas as sugestões!

RobertF
fonte

Respostas:

14

A segunda abordagem sugerida parece razoável, mas é melhor apenas amostrar com substituição no nível mais alto e sem substituição nos subníveis restantes ao inicializar dados hierárquicos. Isso é mostrado nas simulações de Ren et al (2010): http://www.tandfonline.com/doi/abs/10.1080/02664760903046102

Field & Welsh (2007) teoricamente investigaram diferentes abordagens para conjuntos de dados de dois níveis e descobriram que a amostragem com substituição nos dois níveis não era uma idéia brilhante.
http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2007.00593.x/full

A autocorrelação mencionada é um problema sério. Por outro lado, a seleção sem substituição de episódios de atendimento preservaria a estrutura de autocorrelação, por isso talvez não seja um problema tão grande.

Pelle
fonte
Gostaria de saber se a seguinte solução é apropriada:
Rafael
... desculpe, não consegui terminar meu comentário anterior. Aqui está: ... Crie um código (id) que leve em consideração cada nível de cluster (por exemplo, episoid1.claim1, episoid1.claim1, ..., episoid2.claim1, episoid2.claim2, ..., episoidn.claimp) e use o GEE que permite lidar com a autocorrelação. Li em algum lugar que os modelos GEE fornecem estimativas robustas, mesmo na presença de estruturas mais clustyer. Essa solução parece razoável?
Rafael