Eu tenho dados rotulados de 2 classes nos quais estou executando a classificação usando vários classificadores. E os conjuntos de dados são bem equilibrados. Ao avaliar o desempenho dos classificadores, preciso levar em consideração a precisão do classificador em determinar não apenas os verdadeiros positivos, mas também os verdadeiros negativos. Portanto, se eu usar precisão, e se o classificador for direcionado para positivos e classificar tudo como positivo, terei cerca de 50% de precisão, mesmo que tenha falhado na classificação de quaisquer verdadeiros negativos. Essa propriedade é estendida à precisão e recuperação, pois se concentra em apenas uma classe e, por sua vez, na pontuação F1. (Isso é o que eu entendo, mesmo neste artigo, por exemplo: " Além da precisão, F-score e ROC: uma família de medidas discriminantes para avaliação de desempenho ").
Portanto, posso usar sensibilidade e especificidade (TPR e TNR) para ver como o classificador se saiu para cada classe, onde pretendo maximizar esses valores.
Minha pergunta é que estou procurando uma medida que combine esses dois valores em uma medida significativa . Analisei as medidas fornecidas nesse documento, mas achei que não era trivial. E com base no meu entendimento, eu me perguntava por que não podemos aplicar algo como o F-score, mas, em vez de usar precisão e recordação, usaria sensibilidade e especificidade? Portanto, a fórmula seria e meu objetivo seria maximizar essa medida. Eu acho que é muito representativo. Já existe uma fórmula semelhante? E isso faria sentido ou é matematicamente correto?
Precisão, sensibilidade, especificidade e qualquer combinação simples de classificação são regras de pontuação inadequadas. Ou seja, eles são otimizados por um modelo falso. Usá-los fará com que você escolha os recursos errados, dê os pesos errados e tome decisões abaixo do ideal. Uma das muitas maneiras pelas quais as decisões são abaixo do ideal é a falsa confiança que você obtém quando as probabilidades previstas estão próximas do limite implícito pelo uso dessas medidas. Em resumo, tudo o que pode dar errado dá errado com essas medidas. Usá-los para comparar até dois modelos bem ajustados irá enganá-lo.
fonte