Justificativa do uso da AUC?

10

Especialmente no lado orientado para a ciência da computação da literatura de aprendizado de máquina, a AUC (área sob a curva característica do operador do receptor) é um critério popular para avaliar classificadores. Quais são as justificativas para usar a AUC? Por exemplo, existe uma função de perda específica para a qual a decisão ideal é o classificador com a melhor AUC?

charles.y.zheng
fonte
11
A AUC é uma função de perda, é claro que, para essa função de perda, a decisão ideal é o classificador com a melhor AUC.
precisa
11
@robingirard Não, não é, pois não é diferenciável, ou seja, você não pode otimizá-lo diretamente.
cpury

Respostas:

15

Para classificadores binários usados ​​para classificação (ou seja, para cada exemplo temos no intervalo ) a partir do qual a AUC é medida, a AUC é equivalente à probabilidade de que que é um exemplo positivo verdadeiro e é um exemplo negativo verdadeiro. Assim, a escolha de um modelo com a AUC máxima minimiza a probabilidade de . Ou seja, minimiza a perda de classificação de um verdadeiro negativo pelo menos tão grande quanto um verdadeiro positivo.e C ( e ) [ 0 , 1 ] C ( e 1 ) > C ( e 0 ) e 1 e 0 C ( e 0 ) C ( e 1 )CeC(e)[0,1]C(e1)>C(e0)e1e0C(e0)C(e1)

erik
fonte
0

Vamos dar um exemplo simples de identificação de bom tomate a partir de uma piscina de bom e ruim tomate. Digamos que o número de tomates bons seja 100 e o tomate ruim seja 1000, totalizando 1100. Agora, seu trabalho é identificar o maior número possível de tomates bons. Uma maneira de obter um bom tomate é tomar todos os 1100 tomates. Mas diz claramente que você não é capaz de diferenciar b / n bom versus ruim .

Então, qual é a maneira correta de diferenciar - precisamos obter o máximo de bons e, ao mesmo tempo, escolher muito poucos , então precisamos de uma medida, que possa dizer quantos bons escolhemos e também dizer o que os maus contam isto. A medida da AUC dá mais peso se for possível selecionar mais boas com poucas más, como mostrado abaixo. que diz quão bom você é capaz de diferenciar b / n bom e ruim.

No exemplo, você pode observar que, ao pegar 70% de tomate bom, a curva preta capta cerca de 48% dos ruins (impureza), mas a azul tem 83% dos ruins (impureza). Portanto, a curva preta tem melhor pontuação na AUC em comparação com a azul. insira a descrição da imagem aqui

yugandhar
fonte
Como isso responde à pergunta?
Vivek Subramanian 24/01
Escrevi com a intuição da AUC que isso ajuda a dar uma pontuação única para identificar os bons (1 na classificação binária) em toda a população, enquanto reduz o número de falsos positivos. Ajude-me como eu poderia ter feito melhor por isso.
yugandhar 25/01