Estatísticas comuns de validação de modelo, como o teste Kolmogorov – Smirnov (KS), AUROC e Gini, estão todas relacionadas funcionalmente. No entanto, minha pergunta tem a ver com provar como tudo isso está relacionado. Estou curioso para saber se alguém pode me ajudar a provar esses relacionamentos. Não consegui encontrar nada on-line, mas estou realmente interessado em saber como as provas funcionam. Por exemplo, eu sei Gini = 2AUROC-1, mas minha melhor prova envolve apontar para um gráfico. Estou interessado em provas formais. Qualquer ajuda seria muito apreciada!
11
Respostas:
A entrada da Wikipedia para Característica operacional do receptor faz referência a este artigo para o resultado Gini = 2AUROC-1: Hand, David J .; e Till, Robert J. (2001); Uma simples generalização da área sob a curva ROC para problemas de classificação de várias classes, Machine Learning, 45, 171–186. Mas eu tenho medo de não ter acesso fácil a ele para ver o quão perto isso é do que você deseja.
fonte
Segundo o artigo (Adeodato, PJ L e Melo, SB 2016), existe uma relação linear entre a Área sob a curva KS (AUKS) e a Área sob a curva ROC (AUROC), a saber:
A prova de equivalência está incluída no documento.
fonte
O resultado Gini = 2 * AUROC-1 é difícil de provar porque não é necessariamente verdadeiro. O artigo da Wikipedia sobre a curva Receiver Operating Characteristic fornece o resultado como uma definição de Gini, e o artigo de Hand and Till (citado por nealmcb) apenas diz que a definição gráfica de Gini usando a curva ROC leva a essa fórmula.
O problema é que essa definição de Gini é usada nas comunidades de aprendizado de máquina e engenharia, mas uma definição diferente é usada por economistas e demógrafos (voltando ao artigo original de Gini). O artigo da Wikipedia sobre o coeficiente de Gini define essa definição, com base na curva de Lorenz.
Um artigo de Schechtman & Schechtman (2016) estabelece a relação entre AUC e a definição original de Gini. Mas, para ver que eles não podem ser exatamente iguais, suponha que a proporção de eventos seja p e que tenhamos um classificador perfeito. A curva ROC passa então pelo canto superior esquerdo e o AUCROC é 1. No entanto, a curva de Lorenz (invertida) varia de (0,0) a ( p , 1) a (1,1) e o Gini dos economistas é 1 - p / 2, que é quase mas não exatamente 1.
Se os eventos são raros, o relacionamento Gini = 2 * AUROC-1 é quase verdade, mas não exatamente, usando a definição original de Gini. O relacionamento só é exatamente verdadeiro se Gini for redefinido para torná-lo verdadeiro.
fonte