Li esta legenda em um artigo e nunca vi a AUC descrita dessa maneira em nenhum outro lugar. Isso é verdade? Existe uma maneira simples ou comprovada de ver isso?
A Fig. 2 mostra a precisão da previsão de variáveis dicotômicas expressas em termos da área sob a curva característica operacional do receptor (AUC), que é equivalente à probabilidade de classificar corretamente dois usuários selecionados aleatoriamente, um de cada classe (por exemplo, masculino e feminino) )
Parece-me que isso não pode ser verdade, pois para AUC = 0,5, o acima sugeriria que há uma probabilidade de 50% de prever corretamente um lançamento de moeda duas vezes seguidas, mas, na realidade, você tem apenas 25% de chance de prever corretamente dois lançamentos de moeda seguidos. Pelo menos, é assim que estou pensando nesta afirmação.
fonte
Respostas:
A cotação está um pouco incorreta. A afirmação correta é que ROC AUC é a probabilidade de um exemplo positivo escolhido aleatoriamente ter uma classificação mais alta do que um exemplo negativo escolhido aleatoriamente. Isso se deve à relação entre a ROC AUC e o teste de Wilcoxon de classificações.
Você encontrará a discussão em Tom Fawcett, " Uma introdução à análise ROC ", esclarecedora.
fonte
A descrição do autor não é totalmente precisa. A área sob a curva ROC é realmente igual à probabilidade de um exemplo positivo selecionado aleatoriamente ter uma pontuação de risco mais alta do que a de um exemplo negativo selecionado aleatoriamente. Isso não tem necessariamente nada a ver com classificação, é apenas uma medida de separação entre as distribuições de pontuação.
Para o seu exemplo de moeda, imagine que você tem duas moedas e cada uma tem uma pontuação associada. Você então joga as duas moedas até que uma apareça cara e a outra coroa (já que estamos condicionando resultados diferentes). Isso equivale a ter um modelo com pontuação aleatória, e a probabilidade de que a moeda que surgiu cara tenha uma pontuação maior (ou menor) é 1/2.
fonte
A descrição que você leu está correta, embora eu não goste de suas palavras. A área sob a curva ROC (AUC) é a probabilidade de classificar corretamente um par aleatório de indivíduos na classe 1 da classe 2. É uma estatística baseada em classificação, portanto, se você tivesse que adivinhar se um indivíduo em par está classificado com mais de o outro, é apenas 50% de chance se adivinhar aleatoriamente. A AUC é idêntica [1] à estatística do teste de postos sinalizados de Wilcoxon, e isso pode ser usado para ilustrar seu significado.
[1]: Mason e Graham (2002). Áreas abaixo das curvas características operacionais relativas (ROC) e níveis operacionais relativos (ROL): significância e interpretação estatística. Revista Trimestral da Sociedade Meteorológica Real. 128: 2145-2166.
fonte
Como outros apontaram, a AUC expressa a probabilidade de que um exemplo escolhido aleatoriamente da classe positiva receba, do classificador, uma pontuação mais alta que um exemplo escolhido aleatoriamente da classe negativa.
Para a prova dessa propriedade, consulte: Como derivar uma fórmula matemática para a AUC?
Ou a fonte usada para essa resposta: D. Hand, 2009, Medindo o desempenho do classificador: uma alternativa coerente à área sob a curva ROC
fonte