Sabe-se que, ao construir uma árvore de decisão, dividimos a variável de entrada exaustivamente e encontramos a melhor divisão por abordagem de teste estatístico ou por função de impureza.
Minha pergunta é: quando usamos uma variável contínua como variável de entrada (apenas alguns valores duplicados), o número de divisões possíveis pode ser muito grande, para descobrir que a 'melhor' divisão será demorada. Como o cientista de dados lidaria com isso?
Eu li alguns materiais que as pessoas faziam um agrupamento de níveis da entrada para limitar as possíveis divisões. ( exemplo ). No entanto, eles não explicam como isso é feito. Em que baseamos para agrupar uma variável univariada? Existem recursos para mais detalhes ou alguém pode explicar em detalhes?
Obrigado!
Respostas:
e "agrupe" seus dados em compartimentos
Portanto, você teria apenas que verificar -1,2,5,4,5 e 8 como possível ponto de divisão (você interpola linearmente entre os compartimentos)
O artigo a seguir está comparando três regras sobre como escolher os pontos de divisão a serem testados. Eu acho que é o que você está procurando.
@article {chickeringefficient, title = {Determinação eficiente de pontos de divisão dinâmicos em uma árvore de decisão}, autor = {Chickering, David Maxwell e Meek, Christopher e Rounthwaite, Robert}}
fonte