Coeficiente de Gini versus impureza de Gini - árvores de decisão

25

O problema refere-se à construção de árvores de decisão. Segundo a Wikipedia, ' coeficiente de Gini ' não deve ser confundido com ' impureza de Gini '. No entanto, ambas as medidas podem ser usadas na construção de uma árvore de decisão - elas podem apoiar nossas escolhas ao dividir o conjunto de itens.

1) 'Gini impureza' - é uma métrica padrão de divisão de árvores de decisão (veja no link acima);

2) 'Coeficiente de Gini' - cada divisão pode ser avaliada com base no critério da AUC. Para cada cenário de divisão, podemos construir uma curva ROC e calcular a métrica da AUC. Segundo a Wikipedia AUC = (GiniCoeff + 1) / 2;

A pergunta é: essas duas medidas são equivalentes? Por um lado, sou informado de que o coeficiente de Gini não deve ser confundido com a impureza de Gini. Por outro lado, essas duas medidas podem ser usadas para fazer a mesma coisa - avaliar a qualidade de uma divisão em árvore de decisão.

Damien
fonte
Cheguei a esta pergunta procurando uma definição: en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity
Martin Thoma

Respostas:

28

Não, apesar de seus nomes, eles não são equivalentes ou semelhantes.

  • A impureza de Gini é uma medida de classificação incorreta, que se aplica em um contexto classificador de várias classes.
  • O coeficiente de Gini se aplica à classificação binária e requer um classificador que possa, de alguma maneira, classificar exemplos de acordo com a probabilidade de pertencer a uma classe positiva.

Ambos podem ser aplicados em alguns casos, mas são medidas diferentes para coisas diferentes. Impureza é o que é comumente usado em árvores de decisão .

Sean Owen
fonte
7

Tomei um exemplo de dados com duas pessoas A e B com riqueza de unidades 1 e 3, respectivamente. Impureza de Gini conforme Wikipedia = 1 - [(1/4) ^ 2 + (3/4) ^ 2] = 3/8

O coeficiente de Gini de acordo com a Wikipedia seria a proporção da área entre a linha vermelha e azul e a área total sob a linha azul no gráfico a seguir

insira a descrição da imagem aqui

A área sob a linha vermelha é 1/2 + 1 + 3/2 = 3

Área total abaixo da linha azul = 4

Então, o coeficiente de Gini = 3/4

Claramente os dois números são diferentes. Vou verificar mais casos para ver se são proporcionais ou se existe um relacionamento exato e editar a resposta.

Editar: verifiquei também outras combinações, a proporção não é constante. Abaixo está uma lista de algumas combinações que tentei. insira a descrição da imagem aqui

Gaurav Singhal
fonte
Que explicação !!
Outlier
0

Eu acho que os dois representam o mesmo conceito.

Nas árvores de classificação, o Índice Gini é usado para calcular a impureza de uma partição de dados. Portanto, assuma que a partição de dados D consiste em 4 classes cada uma com igual probabilidade. Então o Índice de Gini (Gini Impureza) será: Gini (D) = 1 - (0,25 ^ 2 + 0,25 ^ 2 + 0,25 ^ 2 + 0,25 ^ 2)

No CART, realizamos divisões binárias. Portanto, o índice gini será calculado como a soma ponderada das partições resultantes e selecionamos a divisão com o menor índice gini.

Portanto, o uso da Gini Impurity (Índice de Gini) não se limita a situações binárias.

Outro termo para Gini Impurity é Gini Coefficient, que é usado normalmente como uma medida da distribuição de renda.

Pasmod Turing
fonte
3
O coeficiente de Gini não é a impureza de Gini. Veja os links na pergunta
Sean Owen
2
Wikipedia não ist sempre uma fonte confiável de informações :-)
Pasmod Turing
2
Certo. Vá procurar em outro lugar: mathworld.wolfram.com/GiniCoefficient.html O que faz você pensar que o coeficiente de Gini = impureza de Gini?
Sean Owen
Pesquise: books.google.de/…
Pasmod Turing
11
Acho que estamos falando sobre árvores de decisão. Portanto, estamos no campo do aprendizado de máquina! Por favor, leia a questão com mais cuidado
Pasmod Turing