Algoritmos de árvore de decisão padrão, como ID3 e C4.5, têm uma abordagem de força bruta para escolher o ponto de corte em um recurso contínuo. Cada valor é testado como um possível ponto de corte. (Por testado, quero dizer que, por exemplo, o ganho de informação é calculado em todos os valores possíveis.)
Com muitos recursos contínuos e muitos dados (portanto, muitos valores para cada recurso), essa abordagem parece muito ineficiente!
Estou assumindo que encontrar uma maneira melhor de fazer isso é um tópico importante no Machine Learning. De fato, minha pesquisa no Google Scholar revelou algumas abordagens alternativas. Como discretizar com k-means. Parece haver muitos trabalhos que abordam problemas específicos em domínios específicos.
Mas há um artigo de revisão recente, publicação em blog ou livro que fornece uma visão geral sobre abordagens comuns para discretização? Não consegui encontrar um ...
Ou então, talvez um de vocês seja um especialista no assunto e esteja disposto a escrever uma pequena visão geral. Isso seria tremendamente útil!
fonte