Estou estudando árvores de classificação e regressão, e uma das medidas para a localização da divisão é a pontuação GINI.
Agora, estou acostumado a determinar a melhor localização de divisão quando o log da razão de probabilidade dos mesmos dados entre duas distribuições é zero, o que significa que a probabilidade de associação é igualmente provável.
Minha intuição diz que deve haver algum tipo de conexão, que o GINI precisa ter uma boa base em uma teoria matemática da informação (Shannon), mas eu não o entendo o suficiente para derivar o relacionamento.
Questões:
- Qual é a derivação dos "primeiros princípios" do escore de impureza GINI como uma medida para a divisão?
- Como a pontuação GINI se relaciona com o log da razão de verossimilhança ou outros fundamentos teóricos da informação (Shannon Entropy, pdf e entropia cruzada fazem parte deles)?
Referências:
- Como é definido o critério Gini ponderado?
- Matemática por trás das árvores de classificação e regressão
- http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf
(adicionado) - http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf
- https://www.youtube.com/watch?v=UMtBWQ2m04g
- http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf
- /programming/4936788/decision-tree-learning-and-impurity
A entropia de Shannon é descrita como:
Estendendo isso para o caso multivariado, obtemos:
Entropia condicional é definida da seguinte maneira:
O log da razão de verossimilhanças é usado para detecção abrupta de alterações e é derivado usando-os. (Eu não tenho derivação na minha frente.)
Impureza GINI:
- A forma geral de impureza GINI é
Pensamentos:
- A divisão é feita em uma medida de impureza. Alta "pureza" é provavelmente o mesmo que baixa entropia. A abordagem provavelmente está relacionada à minimização da entropia.
- É provável que a distribuição da base assumida seja uniforme, ou possivelmente com a mão, gaussiana. Eles provavelmente estão fazendo uma mistura de distribuições.
- Será que a derivação do gráfico de Shewhart pode ser aplicada aqui?
- A GINI Impurity se parece com a integral da função de densidade de probabilidade para uma distribuição binomial com 2 tentativas e um sucesso.
(adicional)
- O formulário também é consistente com uma distribuição beta-binomial que é um conjugado anterior para uma distribuição hipergeométrica. Testes hipergeométricos são frequentemente usados para determinar quais amostras estão sobre ou sub-representadas em uma amostra. Há também uma relação com o teste exato de Fisher, seja o que for (note para si mesmo, vá aprender mais sobre isso).
Edit: Eu suspeito que existe uma forma de GINI que funciona muito bem com lógica digital e / ou rb-trees. Espero explorar isso em um projeto de classe neste outono.
fonte
Respostas:
Usarei a mesma notação que usei aqui: Matemática por trás das árvores de classificação e regressão
Gini Gain e Information Gain ( ) são critérios de divisão baseados em impurezas. A única diferença está na função de impureza :IEuG Eu
Na verdade, são valores particulares de uma medida de entropia mais geral (Tsallis 'Entropy) parametrizada em :β
A probabilidade de log, também chamada de estatística , é uma transformação linear do ganho de informação:G
Dependendo da comunidade (estatística / mineração de dados), as pessoas preferem uma medida ou outra (questão relacionada aqui ). Eles podem ser praticamente equivalentes no processo de indução da árvore de decisão. A probabilidade de log pode fornecer pontuações mais altas para partições balanceadas quando houver muitas classes [Nota técnica: algumas propriedades dos critérios de divisão. Breiman 1996].
O Gini Gain pode ser mais agradável porque não possui logaritmos e você pode encontrar a forma fechada para seu valor e variação esperados sob suposição de divisão aleatória [Alin Dobra, Johannes Gehrke: correção de viés na construção da árvore de classificação. ICML 2001: 90-97]. Não é tão fácil para obter informações (se você estiver interessado, veja aqui ).
fonte
Boa pergunta. Infelizmente ainda não tenho reputação suficiente para votar ou comentar, então responda!
Não estou muito familiarizado com o teste de proporção, mas me parece que é um formalismo usado para comparar a probabilidade de dados decorrentes de duas (ou mais) distribuições diferentes , enquanto o coeficiente de Gini é uma estatística resumida de uma única distribuição.
Uma maneira útil de pensar no coeficiente de Gini (IMO) é como a área sob a curva de Lorenz (relacionada ao cdf).
Pode ser possível equiparar a entropia de Shannon a Gini usando a definição dada no OP para entropia:
e a definição de Gini:
Porém, não parece uma tarefa fácil!
fonte