Qual é a relação entre a pontuação GINI e a razão de log-verossimilhança

21

Estou estudando árvores de classificação e regressão, e uma das medidas para a localização da divisão é a pontuação GINI.

Agora, estou acostumado a determinar a melhor localização de divisão quando o log da razão de probabilidade dos mesmos dados entre duas distribuições é zero, o que significa que a probabilidade de associação é igualmente provável.

Minha intuição diz que deve haver algum tipo de conexão, que o GINI precisa ter uma boa base em uma teoria matemática da informação (Shannon), mas eu não o entendo o suficiente para derivar o relacionamento.

Questões:

  • Qual é a derivação dos "primeiros princípios" do escore de impureza GINI como uma medida para a divisão?
  • Como a pontuação GINI se relaciona com o log da razão de verossimilhança ou outros fundamentos teóricos da informação (Shannon Entropy, pdf e entropia cruzada fazem parte deles)?

Referências:

A entropia de Shannon é descrita como:

H(x)=ΣEuP(xEu)registrobP(xEu)

Estendendo isso para o caso multivariado, obtemos:

H(X,Y)=ΣxΣyP(x,y)registrobP(x,y)

Entropia condicional é definida da seguinte maneira:

H(X|Y)=Σyp(x,y)registrobp(x)p(x,y)ou,H(X|Y)=H(X,Y)-H(Y)

O log da razão de verossimilhanças é usado para detecção abrupta de alterações e é derivado usando-os. (Eu não tenho derivação na minha frente.)

Impureza GINI:

  • A forma geral de impureza GINI éEu=Eu=1mfEu(1-fEu)

Pensamentos:

  • A divisão é feita em uma medida de impureza. Alta "pureza" é provavelmente o mesmo que baixa entropia. A abordagem provavelmente está relacionada à minimização da entropia.
  • É provável que a distribuição da base assumida seja uniforme, ou possivelmente com a mão, gaussiana. Eles provavelmente estão fazendo uma mistura de distribuições.
  • Será que a derivação do gráfico de Shewhart pode ser aplicada aqui?
  • A GINI Impurity se parece com a integral da função de densidade de probabilidade para uma distribuição binomial com 2 tentativas e um sucesso. P(x=k)=(21)p(1-p)

(adicional)

  • O formulário também é consistente com uma distribuição beta-binomial que é um conjugado anterior para uma distribuição hipergeométrica. Testes hipergeométricos são frequentemente usados ​​para determinar quais amostras estão sobre ou sub-representadas em uma amostra. Há também uma relação com o teste exato de Fisher, seja o que for (note para si mesmo, vá aprender mais sobre isso).

Edit: Eu suspeito que existe uma forma de GINI que funciona muito bem com lógica digital e / ou rb-trees. Espero explorar isso em um projeto de classe neste outono.

EngrStudent - Restabelecer Monica
fonte
1
É problemático se eu responder minha própria pergunta?
EngrStudent - Reintegrar Monica
1
Não, não mesmo. Se você encontrou uma resposta razoável, atire.
gung - Restabelece Monica
@EngrStudent. boa pergunta, mas o primeiro link que você fornece na seção de referências relaciona-se com o coeficiente de Gini, que nada tem a ver com a medida Gini usado na CART
Antoine
Com relação ao índice Gini, acabei de publicar uma interpretação simples: stats.stackexchange.com/questions/308885/…
Picaud Vincent

Respostas:

11

Usarei a mesma notação que usei aqui: Matemática por trás das árvores de classificação e regressão

Gini Gain e Information Gain ( ) são critérios de divisão baseados em impurezas. A única diferença está na função de impureza :IEuGEu

  1. Gini:GEunEu(E)=1-j=1cpj2
  2. Entropia:H(E)=-j=1cpjregistropj

Na verdade, são valores particulares de uma medida de entropia mais geral (Tsallis 'Entropy) parametrizada em :β

Hβ(E)=1β-1(1-j=1cpjβ)

Gini é obtido com e com .β=2Hβ1

A probabilidade de log, também chamada de estatística , é uma transformação linear do ganho de informação:G

G-estatística=2|E|EuG

Dependendo da comunidade (estatística / mineração de dados), as pessoas preferem uma medida ou outra (questão relacionada aqui ). Eles podem ser praticamente equivalentes no processo de indução da árvore de decisão. A probabilidade de log pode fornecer pontuações mais altas para partições balanceadas quando houver muitas classes [Nota técnica: algumas propriedades dos critérios de divisão. Breiman 1996].

O Gini Gain pode ser mais agradável porque não possui logaritmos e você pode encontrar a forma fechada para seu valor e variação esperados sob suposição de divisão aleatória [Alin Dobra, Johannes Gehrke: correção de viés na construção da árvore de classificação. ICML 2001: 90-97]. Não é tão fácil para obter informações (se você estiver interessado, veja aqui ).

Simone
fonte
1

Boa pergunta. Infelizmente ainda não tenho reputação suficiente para votar ou comentar, então responda!

Não estou muito familiarizado com o teste de proporção, mas me parece que é um formalismo usado para comparar a probabilidade de dados decorrentes de duas (ou mais) distribuições diferentes , enquanto o coeficiente de Gini é uma estatística resumida de uma única distribuição.

Uma maneira útil de pensar no coeficiente de Gini (IMO) é como a área sob a curva de Lorenz (relacionada ao cdf).

Pode ser possível equiparar a entropia de Shannon a Gini usando a definição dada no OP para entropia:

H=ΣEuP(xEu)registrobP(xEu)

e a definição de Gini:

G=1-1μΣEuP(xEu)(SEu-1+SEu) , em que

SEu=Σj=1EuP(xEu)xEu (ou seja, a média acumulada até ).xEu

Porém, não parece uma tarefa fácil!

Gabriel
fonte
Uma taxa de probabilidade de log é operada nos mesmos dados. Uma das distribuições pode ter a mesma forma geral que a outra, mas seus parâmetros foram ajustados aos dados quando algum outro critério era verdadeiro. Por exemplo, você pode ter uma distribuição cujos parâmetros descrevam variação saudável do processo de produção (não necessariamente gaussiana) e outra que seja adequada aos valores atuais do processo de produção e operar ambos nos valores atuais do processo de produção, comparar a razão de verossimilhança com um valor limite indicando possibilidade de excursão. Pode o real ser comparado com o ideal.
EngrStudent - Reintegrar Monica