Pergunta : Eu ajustei um modelo probabilístico (rede bayesiana) para modelar uma variável de resultado binário. Gostaria de criar um gráfico de calibração de alta resolução (por exemplo, spline) corrigido para sobreajuste com o bootstrapping. Existe um procedimento padrão para calcular essa curva?
Considerações : eu poderia fazer isso facilmente com a divisão de trem / teste, mas preferiria não jogar fora nenhum dado, pois tenho menos de 20.000 amostras. Então, naturalmente, pensei em iniciar. Eu sei que uma dessas funções (calibrar) é implementada no pacote rms de Frank Harrell, mas infelizmente o modelo que eu uso não é suportado pelo pacote.
Pergunta de bônus : é possível recalibrar um modelo mal calibrado com o bootstrap? A razão pela qual pergunto isso é que tentei recalibrar um modelo
- dividir dados no trem / teste
- modelo de montagem para treinar
- recalibrar o modelo para treinar o conjunto (com um spline cúbico)
- avaliar a calibração no conjunto de teste
Os modelos recalibrados da maneira acima foram perfeitamente calibrados no conjunto de trem, mas não tanto no conjunto de teste, o que provavelmente indica um ajuste excessivo. Também tentei dividir ainda mais o conjunto de testes, calibrando em uma divisão e avaliando a calibração na segunda divisão. Obtive melhores resultados (ainda não perfeitamente calibrados), mas os conjuntos se tornaram muito pequenos (~ 1000 amostras) e, portanto, a calibração não é confiável
fonte
reticulate
. Eu mesmo poderia implementar o procedimento, se soubesse, mas não o encontrei em lugar algum. Acho que espero que o professor Harrell veja esta pergunta: DRespostas:
Depois de discutir com o professor Frank Harrell por e-mail, desenvolvi o seguinte procedimento para estimar a curva de calibração corrigida pelo otimismo, parcialmente baseada em seu Tutorial em Bioestatística (STATISTICS IN MEDICINE, VOL. 15.361-387 (1996)):
Nota importante : O procedimento acima é inspirado no trabalho de Harrell e na minha discussão com ele, mas todos os erros são apenas meus.
fonte