Conexões entre

13

No aprendizado de máquina, podemos usar a área sob a curva ROC (frequentemente AUC abreviada ou AUROC) para resumir o quão bem um sistema pode discriminar entre duas categorias. Na teoria de detecção de sinal, frequentemente o d (índice de sensibilidade) é usado para uma finalidade semelhante. Os dois estão intimamente ligados, e acredito que são equivalentes entre si se certas suposições forem satisfeitas .

O cálculo é geralmente apresentado com base no pressuposto de distribuições normais para as distribuições de sinal (veja o link da Wikipedia acima, por exemplo). O cálculo da curva ROC não faz essa suposição: é aplicável a qualquer classificador que produz um critério de decisão de valor contínuo que pode ser limiar.d

A Wikipedia diz que é equivalente a 2 AUC - 1 . Isso parece correto se as suposições de ambos forem satisfeitas; mas se as suposições não são as mesmas, não é uma verdade universal.d2AUC1

É justo caracterizar a diferença de premissas como "AUC faz menos premissas sobre as distribuições subjacentes"? Ou realmente tão amplamente aplicável quanto a AUC, mas é apenas prática comum que as pessoas que usam d ' tendem a usar o cálculo que assume distribuições normais? Existem outras diferenças nas suposições subjacentes que eu perdi?dd

Dan Stowell
fonte

Respostas:

7

Não. O valor máximo da AUC é 1. d 'não tem máximo.

Eu acredito que d 'é igual ao qnorm (AUC) * sqrt (2) (minha memória de um antigo livro de estatísticas que não consigo encontrar no momento, mas parece verificar alguns dados que encontrei na web). Aqui qnorm (x) é a "função quantil para a distribuição normal" (R-speak). Ou seja, ele retorna o valor da distribuição normal para a qual x proporção da distribuição está abaixo dela.

Joel Lachter
fonte
2
Obrigado, isso me parece correto - no entanto, apenas se assumirmos que as distribuições são normais (por causa do uso de qnorm ()). Corrigi a redação da Wikipedia.
Dan Stowell