Eu trabalho em um domínio problemático em que as pessoas frequentemente relatam ROC-AUC ou AveP (precisão média). No entanto, recentemente encontrei trabalhos que otimizam a perda de log , enquanto outros relatam perda de dobradiça .
Embora eu entenda como essas métricas são calculadas, estou tendo dificuldades para entender as vantagens e desvantagens entre elas e o que é bom para o que exatamente.
Quando se trata de ROC-AUC vs Precision-Recall, este tópico discute como a maximização do ROC-AUC pode ser vista como usando um critério de otimização de perdas que penaliza "classificar um negativo verdadeiro pelo menos tão grande quanto um positivo positivo" (assumindo que valores mais altos as pontuações correspondem aos positivos). Além disso, esse outro segmento também fornece uma discussão útil sobre o ROC-AUC, em contraste com as métricas do Precision-Recall .
No entanto, para que tipo de problemas a perda de log seria preferível a, digamos, ROC-AUC , AveP ou perda de dobradiça ? Mais importante, que tipos de perguntas se deve fazer sobre o problema ao escolher entre essas funções de perda para classificação binária?
fonte