Estou usando a abordagem de autoinicialização para validação interna de um modelo multivariado criado com regressão logística padrão OU rede elástica.
O procedimento que eu uso é o seguinte:
1) criar modelo usando todo o conjunto de dados, obter valores previstos e calcular AUC (AUC_ap, aparente)
2) gerar 100-500 amostras de autoinicialização derivadas do conjunto de dados original
3) para cada amostra de bootstrap, siga o procedimento idêntico ao do nº 1 e obtenha os valores previstos e auc para i) amostra atual de bootstrap e ii) conjunto de dados original
4) calcule a diferença entre i) e ii) (no nº 3) para cada uma das amostras 100-500 de inicialização e faça a média -> "otimismo"
5) calcular AUC corrigida pelo otimismo: AUC_ap - otimismo
Minha pergunta é: qual seria a melhor curva ROC a ser apresentada em um artigo? Por exemplo, o ROC derivado na etapa 1 é uma opção, mas claramente otimista. Como alternativa, tentei gerar um "ROC médio" usando o pacote R do ROCR, com base nas curvas ROC derivadas na etapa 3 (ii). No entanto, a AUC para a [média dessas curvas ROC] não acredito que seja equivalente ao valor obtido na etapa 5.
Qualquer entrada é muito apreciada! -M