Eu tenho uma pergunta sobre a técnica adequada de inicialização para usar com dados em que um cluster forte está presente.
Fui encarregado de avaliar um modelo preditivo de efeitos mistos multivariados nos dados de reivindicações de seguros, pontuando o modelo de linha de base atual em dados de reivindicações mais recentes, a fim de determinar quão bem o modelo prevê quais episódios de atendimento contêm a maior frequência de sessões (superior Percentil 95). Sensibilidade, especificidade e valor preditivo positivo (PPV) serão usados para avaliar a eficácia do modelo.
O bootstrapping parece o caminho certo para criar intervalos de confiança para as porcentagens de sensibilidade, especificidade e PPV. Infelizmente, um bootstrap ingênuo não é apropriado, uma vez que os dados das reivindicações são 1) correlacionados pelo prestador de cuidados, 2) agrupados em episódios de atendimento com visitas mais frequentes nos meses anteriores ao episódio de atendimento (portanto, existe alguma autocorrelação). Uma variação na técnica de auto-inicialização de blocos móveis seria apropriada aqui?
Ou talvez um procedimento de inicialização de três etapas funcione: 1) amostra com substituição de prestadores distintos nos dados; depois 2) amostra com substituição de episódios distintos de atendimento por prestadores selecionados; em seguida, 3) amostra com substituição de reivindicações distintas dentro de cada episódio selecionado.
Muito obrigado por todas as sugestões!