As árvores de decisão quase sempre são binárias?

21

Quase todo exemplo de árvore de decisão que encontrei é uma árvore binária. Isso é praticamente universal? A maioria dos algoritmos padrão (C4.5, CART etc.) suporta apenas árvores binárias? Pelo que entendi, CHAID não se limita a árvores binárias, mas isso parece ser uma exceção.

Uma divisão bidirecional seguida por outra divisão bidirecional em uma das crianças não é a mesma coisa que uma divisão única. Isso pode ser um ponto acadêmico, mas estou tentando garantir que entenda os casos de uso mais comuns.

Michael McGowan
fonte

Respostas:

18

Isso é principalmente um problema técnico: se você não se restringir a opções binárias, há simplesmente muitas possibilidades para a próxima divisão na árvore. Então você está definitivamente certo em todos os pontos apresentados em sua pergunta.

Esteja ciente de que a maioria dos algoritmos do tipo árvore funciona passo a passo e, portanto, não é garantida a obtenção do melhor resultado possível. Esta é apenas uma ressalva extra.

Para os propósitos mais práticos, embora não durante a construção / poda da árvore, os dois tipos de divisão são equivalentes, uma vez que aparecem imediatamente um após o outro.

Nick Sabbe
fonte
Apenas para amplificar seu primeiro ponto: o número de divisões possíveis aumenta exponencialmente. Se você estiver dividindo em uma variável contínua que possui 1000 valores distintos, existem 999 divisões binárias, mas 999 * 998 divisões binárias.
Peter Flom - Restabelece Monica
2
@ Peter Existem 998/2 divisões ternárias, na verdade. (1000-13-1)=999998/2
whuber
5

Uma divisão bidirecional seguida por outra divisão bidirecional em uma das crianças não é a mesma coisa que uma divisão única

Não sei o que você quer dizer aqui. Qualquer divisão de múltiplas vias pode ser representada como uma série de divisões de duas vias. Para uma divisão de três vias, você pode dividir em A, B e C primeiro dividindo em A&B versus C e depois separando A de B.

Um determinado algoritmo pode não escolher essa sequência específica (especialmente se, como a maioria dos algoritmos, é ganancioso), mas certamente poderia. E se qualquer procedimento aleatório ou estético for feito como em florestas aleatórias ou em árvores potencializadas, as chances de encontrar a seqüência correta de divisões aumentam. Como outros já apontaram, as divisões de múltiplas vias são computacionalmente caras, portanto, dadas essas alternativas, a maioria dos pesquisadores parece ter escolhido divisões binárias.

Espero que isto ajude

David J. Harris
fonte
3
Sim, eu entendo que A, B e C podem ser alcançados dividindo primeiro em A&B vs. C e depois dividindo A de B. Meu argumento foi que um determinado algoritmo pode não escolher essa sequência específica.
Michael McGowan
2

Em relação aos usos da árvore de decisão e da divisão (binária versus outra), só conheço o CHAID que possui divisões não binárias, mas provavelmente existem outras. Para mim, o principal uso de uma divisão não binária é em exercícios de mineração de dados, onde eu estou procurando como otimizar uma variável nominal com muitos níveis. Uma série de divisões binárias não é tão útil quanto um agrupamento feito pelo CHAID.

B_Miner
fonte
É engraçado que você tenha mencionado o binning, porque pensar em binning foi o que me fez começar a me perguntar sobre essa questão (embora eu estivesse pensando em classificar variáveis ​​numéricas em vez de variáveis ​​nominais).
Michael McGowan
@ Michael, Sim, isso também funciona, mas você joga fora as informações. Eu usá-lo quando eu preciso combinar os níveis esparsas de uma variável nominal - quando a modelagem final será feito sem uma abordagem tipo de árvore (dizem regressão logística ou SVM e muitas variáveis dummy esparsas causa problemas)
B_Miner
0

Por favor leia isto

Por razões práticas (explosão combinatória), a maioria das bibliotecas implementa árvores de decisão com divisões binárias. O bom é que eles são completos para NP (Hyafil, Laurent e Ronald L. Rivest. "A construção de árvores de decisão binárias ideais é completa para NP". Information Processing Letters 5.1 (1976): 15-17.)

Pagamento C.
fonte