Árvore de decisão com variável de entrada contínua

8

Sabe-se que, ao construir uma árvore de decisão, dividimos a variável de entrada exaustivamente e encontramos a melhor divisão por abordagem de teste estatístico ou por função de impureza.

Minha pergunta é: quando usamos uma variável contínua como variável de entrada (apenas alguns valores duplicados), o número de divisões possíveis pode ser muito grande, para descobrir que a 'melhor' divisão será demorada. Como o cientista de dados lidaria com isso?

Eu li alguns materiais que as pessoas faziam um agrupamento de níveis da entrada para limitar as possíveis divisões. ( exemplo ). No entanto, eles não explicam como isso é feito. Em que baseamos para agrupar uma variável univariada? Existem recursos para mais detalhes ou alguém pode explicar em detalhes?

Obrigado!

pe perry
fonte
Não existe um algoritmo para treinar uma floresta aleatória, mas muitas. Por exemplo ID3, C4.5, CART, CHAID ou MARS. A resposta à sua pergunta depende fortemente o algoritmo usado ...
MaxBenChrist
@MaxBenChrist Você se importaria de escolher um a dois deles, por exemplo, CART para explicar como a variável de entrada está agrupada? Obrigado!
pe-perry
Os algoritmos dividiam-se em compartimentos / intervalos e encontravam o ponto que dava os resultados mais ambiciosos.
HelloWorld

Respostas:

11

X

[1,3,4,6,2,5,18,10, -3, -5]

X

[-5, -3,1,2,3,4,5,6,10,18]

e "agrupe" seus dados em compartimentos

[-5, -3], [1,2], [3,4], [5,6], [10,18]

Portanto, você teria apenas que verificar -1,2,5,4,5 e 8 como possível ponto de divisão (você interpola linearmente entre os compartimentos)

O artigo a seguir está comparando três regras sobre como escolher os pontos de divisão a serem testados. Eu acho que é o que você está procurando.

@article {chickeringefficient, title = {Determinação eficiente de pontos de divisão dinâmicos em uma árvore de decisão}, autor = {Chickering, David Maxwell e Meek, Christopher e Rounthwaite, Robert}}

MaxBenChrist
fonte