Por que a área sob a curva ROC tem a probabilidade de um classificador classificar uma instância "positiva" escolhida aleatoriamente (a partir das previsões obtidas) mais alta que uma instância "positiva" escolhida aleatoriamente (a partir da classe positiva original)? Como alguém prova essa afirmação matematicamente usando integral, fornecendo os CDFs e PDFs das verdadeiras distribuições de classe positiva e negativa?
probability
roc
auc
mff
fonte
fonte
Respostas:
Primeiro, vamos tentar definir a área sob a curva ROC formalmente. Algumas suposições e definições:
Temos um classificador probabilístico que gera uma "pontuação" s (x), onde x são as características es é uma função monotônica crescente genérica da probabilidade estimada p (classe = 1 | x).
, com k = { 0 , 1 } : = pdf das pontuações para a classe k, com CDF F k ( s )fk(s) k={0,1} Fk(s)
A classificação de uma nova observação é obtida comprando a pontuação s para um limiar t
Além disso, por conveniência matemática, vamos considerar a classe positiva (evento detectado) k = 0 e negativa k = 1. Nesta configuração, podemos definir:
A curva ROC é então um gráfico de contra F 1 ( t ) . Definindo v = F 1 ( s ) , pode-se definir formalmente a área sob a curva de ROC como: Um L C = ∫ 1 0 F 0 ( M - 1 1 ( v ) ) d v Alterando variável ( d v = f 1 ( s ) d sF0(t) F1(t) v=F1(s)
Essa fórmula pode facilmente ser vista como a probabilidade de um membro sorteado aleatoriamente da classe 0 produzir uma pontuação menor que a pontuação de um membro sorteado aleatoriamente da classe 1.
Esta prova é retirada de: https://pdfs.semanticscholar.org/1fcb/f15898db36990f651c1e5cdc0b405855de2c.pdf
fonte
A resposta de @ alebu é ótima. Mas sua notação é fora do padrão e usa 0 para a classe positiva e 1 para a classe negativa. Abaixo estão os resultados para a notação padrão (0 para a classe negativa e 1 para a classe positiva):
fonte
Nós temos:
Substituindo isso na equação (1), obtemos:
Em outras palavras, a área sob a curva é a probabilidade de uma amostra positiva aleatória ter uma pontuação maior que uma amostra negativa aleatória.
fonte