Justificativa do uso da AUC?

10

Especialmente no lado orientado para a ciência da computação da literatura de aprendizado de máquina, a AUC (área sob a curva característica do operador do receptor) é um critério popular para avaliar classificadores. Quais são as justificativas para usar a AUC? Por exemplo, existe uma função de perda específica para a qual a decisão ideal é o classificador com a melhor AUC?

machine-learning roc charles.y.zheng
fonte

11

A AUC é uma função de perda, é claro que, para essa função de perda, a decisão ideal é o classificador com a melhor AUC.

precisa

11

@robingirard Não, não é, pois não é diferenciável, ou seja, você não pode otimizá-lo diretamente.

cpury

15

Para classificadores binários usados para classificação (ou seja, para cada exemplo temos no intervalo ) a partir do qual a AUC é medida, a AUC é equivalente à probabilidade de que que é um exemplo positivo verdadeiro e é um exemplo negativo verdadeiro. Assim, a escolha de um modelo com a AUC máxima minimiza a probabilidade de . Ou seja, minimiza a perda de classificação de um verdadeiro negativo pelo menos tão grande quanto um verdadeiro positivo. $C$ $e$ $C(e)$ $[0, 1]$ $C(e_1) > C(e_0)$ $e_1$ $e_0$ $C(e_0) \geq C(e_1)$

erik
fonte

0

Vamos dar um exemplo simples de identificação de bom tomate a partir de uma piscina de bom e ruim tomate. Digamos que o número de tomates bons seja 100 e o tomate ruim seja 1000, totalizando 1100. Agora, seu trabalho é identificar o maior número possível de tomates bons. Uma maneira de obter um bom tomate é tomar todos os 1100 tomates. Mas diz claramente que você não é capaz de diferenciar b / n bom versus ruim .

Então, qual é a maneira correta de diferenciar - precisamos obter o máximo de bons e, ao mesmo tempo, escolher muito poucos , então precisamos de uma medida, que possa dizer quantos bons escolhemos e também dizer o que os maus contam isto. A medida da AUC dá mais peso se for possível selecionar mais boas com poucas más, como mostrado abaixo. que diz quão bom você é capaz de diferenciar b / n bom e ruim.

No exemplo, você pode observar que, ao pegar 70% de tomate bom, a curva preta capta cerca de 48% dos ruins (impureza), mas a azul tem 83% dos ruins (impureza). Portanto, a curva preta tem melhor pontuação na AUC em comparação com a azul.

yugandhar
fonte

Como isso responde à pergunta?

Vivek Subramanian 24/01

Escrevi com a intuição da AUC que isso ajuda a dar uma pontuação única para identificar os bons (1 na classificação binária) em toda a população, enquanto reduz o número de falsos positivos. Ajude-me como eu poderia ter feito melhor por isso.

yugandhar 25/01

Justificativa do uso da AUC?

Respostas: