Interpretação da área sob a curva PR

10

Atualmente, estou comparando três métodos e tenho a Precisão, auROC e auPR como métricas. E eu tenho os seguintes resultados:

Método A - acc: 0,75, auROC: 0,75, auPR: 0,45

Método B - acc: 0,65, auROC: 0,55, auPR: 0,40

Método C - acc: 0,55, auROC: 0,70, auPR: 0,65

Eu tenho um bom entendimento da precisão e do auROC (para lembrar bem, muitas vezes tento inventar uma frase como "auROC = caracteriza a capacidade de prever bem a classe positiva", embora não seja exatamente correta, isso me ajuda a lembrar). Eu nunca tive dados auPR antes e enquanto eu entendo como eles são construídos, não consigo entender o que está por trás deles.

De fato, não entendo por que o método C tem uma pontuação incrivelmente alta para o auPR, sendo ruim / médio para a precisão e o auPR.

Se alguém pudesse me ajudar a entender um pouco melhor com uma explicação simples, seria ótimo. Obrigado.

AdrienNK
fonte

Respostas:

11

Um eixo das curvas ROC e PR é o mesmo, ou seja, TPR: quantos casos positivos foram classificados corretamente dentre todos os casos positivos nos dados.

O outro eixo é diferente. O ROC usa o FPR, que é quantos declarados positivos erroneamente dentre todos os negativos nos dados. A curva PR usa precisão: quantos positivos verdadeiros de todos os que foram previstos como positivos. Portanto, a base do segundo eixo é diferente. O ROC usa o que há nos dados, o PR usa o que está na previsão como base.

Acredita-se que a curva PR seja mais informativa quando houver um desequilíbrio de classe alta nos dados, consulte este artigo http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf .

inzl
fonte
11
Para o auROC, 0,5 é o mínimo (porque menos seria melhor invertendo a previsão). Existem regras semelhantes com o auPR? Também sobre minhas medidas: o que eu poderia afirmar olhando as pontuações do Método C? Como estou trabalhando com o mesmo conjunto de dados nos 3 casos e, do meu ponto de vista, para um conjunto de dados com distribuição mais ou menos uniforme entre as classes, não faria sentido que o auROC e o auPR não sigam a mesma classificação para o meu métodos.
AdrienNK
11
qual é a pontuação do classificador aleatório no auPR? Eu sei que é 0,5 no auROC, mas não consigo saber no auPRC.
Jack Twain
9
A pontuação auPR esperada para um classificador aleatório é apenas a proporção de casos positivos verdadeiros no conjunto de dados. Essa é a precisão que você esperaria se adivinhasse a classe e obteria essa precisão para todos os níveis de recall. Portanto, a curva PR esperada para um classificador aleatório é apenas um retângulo com comprimentos laterais "proporção de verdadeiros positivos" x 1. Por exemplo, se o seu conjunto de dados contiver 10% de casos positivos e 90% de casos negativos, o auPR esperado sob chance será 0,1.
Lizzie Silver