Especialmente no lado orientado para a ciência da computação da literatura de aprendizado de máquina, a AUC (área sob a curva característica do operador do receptor) é um critério popular para avaliar classificadores. Quais são as justificativas para usar a AUC? Por exemplo, existe uma função de perda específica para a qual a decisão ideal é o classificador com a melhor AUC?
machine-learning
roc
charles.y.zheng
fonte
fonte
Respostas:
Para classificadores binários usados para classificação (ou seja, para cada exemplo temos no intervalo ) a partir do qual a AUC é medida, a AUC é equivalente à probabilidade de que que é um exemplo positivo verdadeiro e é um exemplo negativo verdadeiro. Assim, a escolha de um modelo com a AUC máxima minimiza a probabilidade de . Ou seja, minimiza a perda de classificação de um verdadeiro negativo pelo menos tão grande quanto um verdadeiro positivo.e C ( e ) [ 0 , 1 ] C ( e 1 ) > C ( e 0 ) e 1 e 0 C ( e 0 ) ≥ C ( e 1 )C e C( E ) [ 0 , 1 ] C( e1 1) > C( e0 0) e1 1 e0 0 C( e0 0) ≥ C( e1 1)
fonte
Vamos dar um exemplo simples de identificação de bom tomate a partir de uma piscina de bom e ruim tomate. Digamos que o número de tomates bons seja 100 e o tomate ruim seja 1000, totalizando 1100. Agora, seu trabalho é identificar o maior número possível de tomates bons. Uma maneira de obter um bom tomate é tomar todos os 1100 tomates. Mas diz claramente que você não é capaz de diferenciar b / n bom versus ruim .
Então, qual é a maneira correta de diferenciar - precisamos obter o máximo de bons e, ao mesmo tempo, escolher muito poucos , então precisamos de uma medida, que possa dizer quantos bons escolhemos e também dizer o que os maus contam isto. A medida da AUC dá mais peso se for possível selecionar mais boas com poucas más, como mostrado abaixo. que diz quão bom você é capaz de diferenciar b / n bom e ruim.
No exemplo, você pode observar que, ao pegar 70% de tomate bom, a curva preta capta cerca de 48% dos ruins (impureza), mas a azul tem 83% dos ruins (impureza). Portanto, a curva preta tem melhor pontuação na AUC em comparação com a azul.
fonte