Qual é a melhor função de custo para uma árvore de floresta aleatória: índice de Gini ou entropia?

12

Qual é a melhor função de custo para uma árvore de floresta aleatória: índice de Gini ou entropia?

Estou tentando implementar uma floresta aleatória no Clojure.

Vivek
fonte

Respostas:

9

Como eu encontrei em Introdução à mineração de dados por Tan et. al:

Estudos mostraram que a escolha da medida da impureza tem pouco efeito no desempenho dos algoritmos de indução de árvore de decisão. Isso ocorre porque muitas medidas de impureza são bastante consistentes entre si [...]. De fato, a estratégia usada para podar a árvore tem um impacto maior na árvore final do que a escolha da medida de impureza.

Portanto, você pode optar por usar o índice Gini como CART ou Entropy como C4.5.

Eu usaria o Entropy, mais especificamente a relação de ganho de C4.5, porque você pode acompanhar facilmente o livro bem escrito de Quinlan: C4.5 Programs for Machine Learning.

Simone
fonte
3
Pouca observação - a entropia usa logs, o que pode ser um problema de tempo computacional.
8
Essa observação é sobre árvores de decisão puras, embora não florestas aleatórias. Você geralmente não poda uma árvore em uma floresta aleatória porque não está tentando construir uma melhor árvore. Portanto, parece enganador falar sobre o que é mais importante: poda ou medida de impureza. O objetivo é encontrar a melhor árvore para usar com floresta aleatória.
Chan-Ho Suh