Qual é a melhor função de custo para uma árvore de floresta aleatória: índice de Gini ou entropia?
Estou tentando implementar uma floresta aleatória no Clojure.
fonte
Qual é a melhor função de custo para uma árvore de floresta aleatória: índice de Gini ou entropia?
Estou tentando implementar uma floresta aleatória no Clojure.
Como eu encontrei em Introdução à mineração de dados por Tan et. al:
Estudos mostraram que a escolha da medida da impureza tem pouco efeito no desempenho dos algoritmos de indução de árvore de decisão. Isso ocorre porque muitas medidas de impureza são bastante consistentes entre si [...]. De fato, a estratégia usada para podar a árvore tem um impacto maior na árvore final do que a escolha da medida de impureza.
Portanto, você pode optar por usar o índice Gini como CART ou Entropy como C4.5.
Eu usaria o Entropy, mais especificamente a relação de ganho de C4.5, porque você pode acompanhar facilmente o livro bem escrito de Quinlan: C4.5 Programs for Machine Learning.