O problema refere-se à construção de árvores de decisão. Segundo a Wikipedia, ' coeficiente de Gini ' não deve ser confundido com ' impureza de Gini '. No entanto, ambas as medidas podem ser usadas na construção de uma árvore de decisão - elas podem apoiar nossas escolhas ao dividir o conjunto de itens.
1) 'Gini impureza' - é uma métrica padrão de divisão de árvores de decisão (veja no link acima);
2) 'Coeficiente de Gini' - cada divisão pode ser avaliada com base no critério da AUC. Para cada cenário de divisão, podemos construir uma curva ROC e calcular a métrica da AUC. Segundo a Wikipedia AUC = (GiniCoeff + 1) / 2;
A pergunta é: essas duas medidas são equivalentes? Por um lado, sou informado de que o coeficiente de Gini não deve ser confundido com a impureza de Gini. Por outro lado, essas duas medidas podem ser usadas para fazer a mesma coisa - avaliar a qualidade de uma divisão em árvore de decisão.
fonte
Respostas:
Não, apesar de seus nomes, eles não são equivalentes ou semelhantes.
Ambos podem ser aplicados em alguns casos, mas são medidas diferentes para coisas diferentes. Impureza é o que é comumente usado em árvores de decisão .
fonte
Tomei um exemplo de dados com duas pessoas A e B com riqueza de unidades 1 e 3, respectivamente. Impureza de Gini conforme Wikipedia = 1 - [(1/4) ^ 2 + (3/4) ^ 2] = 3/8
O coeficiente de Gini de acordo com a Wikipedia seria a proporção da área entre a linha vermelha e azul e a área total sob a linha azul no gráfico a seguir
A área sob a linha vermelha é 1/2 + 1 + 3/2 = 3
Área total abaixo da linha azul = 4
Então, o coeficiente de Gini = 3/4
Claramente os dois números são diferentes. Vou verificar mais casos para ver se são proporcionais ou se existe um relacionamento exato e editar a resposta.
Editar: verifiquei também outras combinações, a proporção não é constante. Abaixo está uma lista de algumas combinações que tentei.
fonte
Eu acho que os dois representam o mesmo conceito.
Nas árvores de classificação, o Índice Gini é usado para calcular a impureza de uma partição de dados. Portanto, assuma que a partição de dados D consiste em 4 classes cada uma com igual probabilidade. Então o Índice de Gini (Gini Impureza) será: Gini (D) = 1 - (0,25 ^ 2 + 0,25 ^ 2 + 0,25 ^ 2 + 0,25 ^ 2)
No CART, realizamos divisões binárias. Portanto, o índice gini será calculado como a soma ponderada das partições resultantes e selecionamos a divisão com o menor índice gini.
Portanto, o uso da Gini Impurity (Índice de Gini) não se limita a situações binárias.
Outro termo para Gini Impurity é Gini Coefficient, que é usado normalmente como uma medida da distribuição de renda.
fonte