Relação entre KS, AUROC e Gini

11

Estatísticas comuns de validação de modelo, como o teste Kolmogorov – Smirnov (KS), AUROC e Gini, estão todas relacionadas funcionalmente. No entanto, minha pergunta tem a ver com provar como tudo isso está relacionado. Estou curioso para saber se alguém pode me ajudar a provar esses relacionamentos. Não consegui encontrar nada on-line, mas estou realmente interessado em saber como as provas funcionam. Por exemplo, eu sei Gini = 2AUROC-1, mas minha melhor prova envolve apontar para um gráfico. Estou interessado em provas formais. Qualquer ajuda seria muito apreciada!

Steven
fonte
11
Por KS, você quer dizer a estatística Kolmogorov-Smirnov? AUROC é provavelmente a área sob a curva ROC?
Nitesh
Parece que começar na Wikipedia e passar pelas referências originais seria um bom lugar para começar.
LauriK

Respostas:

1

A entrada da Wikipedia para Característica operacional do receptor faz referência a este artigo para o resultado Gini = 2AUROC-1: Hand, David J .; e Till, Robert J. (2001); Uma simples generalização da área sob a curva ROC para problemas de classificação de várias classes, Machine Learning, 45, 171–186. Mas eu tenho medo de não ter acesso fácil a ele para ver o quão perto isso é do que você deseja.

nealmcb
fonte
11
... e pode ser um resultado inútil, pois o Gini geralmente é aplicado a dados que possuem duas etiquetas categoriais, enquanto o AUROC é aplicado a dados numéricos de classificação + um rótulo binário. Eles podem coincidir apenas se sua classificação for binária? caso em que não faria muito sentido para uso AUROC em tudo porque é uma curva de 3 pontos com apenas 2 graus de liberdade ... (Eu não tenho verificado esse resultado, muito spam papel na Wikipedia estes dias.)
Foi QUIT - Anony-Mousse
0

Segundo o artigo (Adeodato, PJ L e Melo, SB 2016), existe uma relação linear entre a Área sob a curva KS (AUKS) e a Área sob a curva ROC (AUROC), a saber:

UMAvocêROC=0,5+UMAvocêKS

A prova de equivalência está incluída no documento.

ntzortzis
fonte
0

O resultado Gini = 2 * AUROC-1 é difícil de provar porque não é necessariamente verdadeiro. O artigo da Wikipedia sobre a curva Receiver Operating Characteristic fornece o resultado como uma definição de Gini, e o artigo de Hand and Till (citado por nealmcb) apenas diz que a definição gráfica de Gini usando a curva ROC leva a essa fórmula.

O problema é que essa definição de Gini é usada nas comunidades de aprendizado de máquina e engenharia, mas uma definição diferente é usada por economistas e demógrafos (voltando ao artigo original de Gini). O artigo da Wikipedia sobre o coeficiente de Gini define essa definição, com base na curva de Lorenz.

Um artigo de Schechtman & Schechtman (2016) estabelece a relação entre AUC e a definição original de Gini. Mas, para ver que eles não podem ser exatamente iguais, suponha que a proporção de eventos seja p e que tenhamos um classificador perfeito. A curva ROC passa então pelo canto superior esquerdo e o AUCROC é 1. No entanto, a curva de Lorenz (invertida) varia de (0,0) a ( p , 1) a (1,1) e o Gini dos economistas é 1 - p / 2, que é quase mas não exatamente 1.

Se os eventos são raros, o relacionamento Gini = 2 * AUROC-1 é quase verdade, mas não exatamente, usando a definição original de Gini. O relacionamento só é exatamente verdadeiro se Gini for redefinido para torná-lo verdadeiro.

PaulVD
fonte