Curvas ROC para conjuntos de dados não balanceados

10

Considere uma matriz de entrada e uma saída binária .Xy

Uma maneira comum de medir o desempenho de um classificador é usar curvas ROC.

Em um gráfico ROC, a diagonal é o resultado que seria obtido de um classificador aleatório. No caso de uma saída desequilibrada o desempenho de um classificador aleatório pode ser melhorado, escolhendo ou com probabilidades diferentes.y01

Como o desempenho desse classificador pode ser representado em um gráfico de curva ROC? Suponho que deveria ser uma linha reta com um ângulo diferente, e não a diagonal mais?

Exemplo de curva ROC

Donbeo
fonte
2
Você pode tentar a curva de rechamada de precisão: "O gráfico de rechamada de precisão é mais informativo do que o gráfico ROC ao avaliar classificadores binários em conjuntos de dados desequilibrados", ncbi.nlm.nih.gov/pmc/articles/PMC4349800 , provavelmente mais site acessível criado pelos autores do artigo, classeval.wordpress.com/simulation-analysis/…
zyxue 14/11/16

Respostas:

16

As curvas ROC são insensíveis ao equilíbrio de classes. A linha reta que você obtém para um classificador aleatório agora já é o resultado do uso de diferentes probabilidades de produzir positivo (0 o leva a (0, 0) e 1 o leva a (1, 1) com qualquer intervalo entre eles).

Nada muda em um cenário desequilibrado.

Marc Claesen
fonte
11
Acho útil considerar o significado da área sob curva para ver por que a diagonal não muda. A AUC pode ser interpretada como a probabilidade de um exemplo positivo selecionado aleatoriamente ter uma pontuação mais alta do que um exemplo negativo selecionado aleatoriamente. 1 . Isso me deixa mais claro por que o desequilíbrio de classe não é um problema.
JBecker