Por que usar a Pontuação Gini Normalizada em vez da AUC como avaliação?

14

A concorrência da Kaggle A Safe Driver Prediction da Porto Seguro usa a Pontuação Gini Normalizada como métrica de avaliação e isso me deixou curioso sobre os motivos dessa escolha. Quais são as vantagens de usar a pontuação gini normalizada em vez das métricas mais comuns, como AUC, para avaliação?

xboard
fonte
1
O site Kaggle costumava ter essa resposta: "Existe uma área máxima possível de obter para um modelo" perfeito ", pois nem todos os exemplos positivos ocorrem imediatamente. Usamos o coeficiente Gini normalizado dividindo o coeficiente Gini do seu modelo pelo coeficiente Gini do modelo perfeito ". mas não está mais disponível. webcache.googleusercontent.com/…
Sextus Empiricus 10/10
1
Então, gini é apenas auc em uma escala diferente. Ou auc e gini são aplicados a diferentes curvas? Isso não está claro para mim como não especialista em aprendizado de máquina. A questão não é muito clara sobre isso.
Sextus Empiricus 10/10

Respostas:

3

gEunEu=2×UMAvocêC-1
Miguel
fonte
6
Além disso, o uso do coeficiente gini define o desempenho de um classificador aleatório para uma pontuação de 0 ... a normalização "melhora" a outra extremidade da escala e faz com que a pontuação de um classificador perfeito seja igual a 1 em vez da máxima alcançável AUC <1. A melhoria é apenas relativa, dependendo se você acha que uma escala mais intuitiva é boa ou não. Embora além dessa interpretação mais fácil, você possa argumentar que (a normalização) também melhora a generalização e a comparação de diferentes conjuntos de dados.
Sextus Empiricus 10/10
Por que a AUC máxima alcançável deve ser menor que 1, também não vejo como o gini a define como 1?
Rep_ho 11/11
Depende de que tipo de curva eles calculam o coeficiente de gini. Talvez eles usem algo diferente de uma curva ROC (cuja AUC máxima seria de fato 1). Dadas as palavras no site da kaggle, parece plausível que a AUC máxima não seja 1:> "Passamos da esquerda para a direita, perguntando" No x% mais à esquerda dos dados, quanto da resposta acumulada você acumulou? "
Sextus Empiricus