Uma explicação simples e clara da impureza de Gini?

9

Em um contexto de divisão da árvore de decisão, não é óbvio ver por que a impureza de Gini

i(t)=1j=1kp2(j|t)
é uma medida da impureza do nó t . Existe uma explicação fácil para isso?
Picaud Vincent
fonte
Esta resposta em uma pergunta relacionada pode ajudá-lo a entender melhor a intuição: stats.stackexchange.com/a/339514/27974
Scott

Respostas:

13

Imagine um experimento com kpossíveis categorias de saída. Categoriaj tem uma probabilidade de ocorrência p(j|t) (Onde j=1,..k)

Em seguida, reproduza a experiência duas vezes e faça as seguintes observações:

  • a probabilidade de obter duas saídas idênticas da categoria j é p2(j|t)
  • a probabilidade de obter duas saídas idênticas , independentemente de sua categoria, é:j=1kp2(j|t)
  • a probabilidade de obter duas saídas diferentes é assim:1j=1kp2(j|t)

É isso aí! A impureza de Gini é simplesmente a probabilidade de obter dois resultados diferentes , que é uma "medida de impureza". Na outra direção, se tivermos umj de tal modo que p(j|t)=1 (e assim o outro p (j | t) = 0) temos uma impureza de Gini i(t)=0 e sempre teremos duas saídas idênticas da categoria j, que é uma situação "pura" !.

Picaud Vincent
fonte
Mesma matemática, mas com uma interpretação mais prática: é natural prever a classe j=1k de um elemento no conjunto selecionando uma classe j com probabilidade p(j). O 1-Gini simplesmente fornece a precisão (Rand). Assim, uma impureza de Gini igual a 0 significa uma precisão de 100% na previsão da classe dos elementos, de modo que todos são da mesma classe. Da mesma forma, uma impureza de Gini de 0,5 significa uma possibilidade de 50% de classificar correctamente um elemento do conjunto com este método natural, etc
Eric O Lebigot
0

Impureza de Gini = entropia lógica = índice de biodiversidade de Gini-Simpson = entropia quadrática com função de distância lógica (1-Kroneckerdelta), etc. Veja: Ellerman, David. 2018. “Entropia Lógica: Introdução à Teoria da Informação Lógica Clássica e Quântica.” Entropia 20 (9): ID do artigo 679. https://doi.org/10.3390/e20090679 e as referências nela contidas.

David Ellerman
fonte
Os economistas costumam chamar isso de índice de Herfindahl-Hirschman.
Nick Cox