Comparar classificadores com base no AUROC ou na precisão?

11

Eu tenho um problema de classificação binária e experimento diferentes classificadores: quero comparar os classificadores. qual é uma medida melhor da AUC ou da precisão? E porque?

Raondom Forest: AUC: 0.828  Accuracy: 79.6667 %
           SVM: AUC: 0.542  Accuracy: 85.6667 %
Sina
fonte

Respostas:

13

A proporção classificada corretamente é uma regra de pontuação inadequada, ou seja, é otimizada por um modelo falso. Eu usaria a regra de pontuação quadrática adequada conhecida como Brier score, ou a probabilidade de concordância (área sob a curva ROC no caso binário ). A floresta aleatória funciona melhor que o SVM no seu caso.Y

Frank Harrell
fonte
Se por assunto na sua amostra o i{ 0 , 1 } é o resultado binário observado e f i é a probabilidade prevista de um a pontuação Brier é (se bem me lembro) '1' B =ioi{0,1}f^i. Como o OP tem um problema de classificação binária ooisão conhecidos, mas como você calcular f ipara SVM? B=1ni=1n(f^ioi)2oif^i
@fcop Existe uma maneira de transformar a previsão de classificação binária de um SVM em uma probabilidade, chamada Platt Scaling ( en.wikipedia.org/wiki/Platt_scaling ). Essencialmente, em vez de calcular a (=+1ou-1) como y i=sign(g(yi,xi)), ondeg(yi,y^i=+11y^i=sign(g(yi,xi))g(yi,xi)é a solução para o SVM convexa problema de programação quadrática, Platt dimensionamento preciso uma transformação logística de : f i = P ( Y = 1 | x i ) = 1g(yi,xi) , ondeAeBsão parâmetros determinado pelo algoritmo de escalonamento de Platt. f^i=P(Y=1|xi)=11+exp(A×g(yi,xi)+B)AB
robertf
8

Eu acho que você definitivamente deveria procurar mais métricas do que apenas AUC e precisão.

A precisão (juntamente com sensibilidade e especificidade) é uma métrica muito simples, mas tendenciosa, que obriga a olhar para o resultado absoluto da previsão e não abre para a afirmação de probabilidades ou classificações de classe. Também não leva em consideração a população, o que convida à interpretação incorreta como um modelo que fornece uma precisão de 95% em uma população com 95% de chance de estar correta aleatoriamente não é realmente um bom modelo, mesmo que a precisão seja alta.

A AUC é uma boa métrica para afirmar a precisão do modelo, independente das probabilidades de classe populacional. No entanto, não lhe dirá nada sobre quão boas são as estimativas de probabilidade. Você pode obter uma AUC alta, mas ainda tem estimativas de probabilidade muito distorcidas. Essa métrica é mais exigente do que precisão e definitivamente fornecerá melhores modelos quando usada em combinação com alguma regra de pontuação adequada, por exemplo, pontuação Brier, conforme mencionado em outro post.

Você pode obter uma prova mais formal aqui, embora este artigo seja bastante teórico: AUC: uma medida estatisticamente consistente e mais discriminadora do que precisão

No entanto, existem várias boas métricas disponíveis. Funções de perda para estimativa e classificação de probabilidade de classe binária: estrutura e aplicações é um bom artigo que investiga regras de pontuação adequadas, como a pontuação Brier.

Outro artigo interessante com métricas para afirmar o desempenho do modelo é a Avaliação: da precisão, recall e F-measure ao ROC, informabilidade, acentuação e correlação, adotando outras métricas de bom desempenho, como a informabilidade .

Para resumir, eu recomendaria analisar a pontuação da AUC / Gini e Brier para afirmar o desempenho do modelo, mas, dependendo do objetivo do modelo, outras métricas podem atender melhor ao seu problema.

enquanto
fonte
O link para a Avaliação: de precisão, recall e F-medida para ROC, informedness, markedness & correlação está morto
vonjd
EuoEu{0 0,1}f^EuB=1nEu=1n(f^Eu-oEu)2oEuf^Eu
Nenhum brierscore não é ótimo para métodos que apenas fornecem um resultado e não uma probabilidade. Niether é auc, pois isso lhe dirá o quão bem você classifica suas previsões. Com apenas resultados, você obterá apenas um ponto no espaço ROC, portanto, fornecendo a área sob a curva será o triângulo. Mas ele ainda fornecerá um número e, assim, aumentará a pontuação, apesar de se transformar mais ou menos em perda de 0-1. Se você tiver apenas resultados, sugiro olhar para Precision, Recall e Kappa de Cohen, que são métricas projetadas para quando você obtiver resultados.
enquanto