CHAID vs CRT (ou CARRINHO)

23

Estou executando uma classificação de árvore de decisão usando o SPSS em um conjunto de dados com cerca de 20 preditores (categóricos com poucas categorias). CHAID (Detecção Automática de Interação Qui-Quadrado) e CRT / CART (Árvores de Classificação e Regressão) estão me dando árvores diferentes. Alguém pode explicar os méritos relativos de CHAID vs CRT? Quais são as implicações do uso de um método sobre o outro?

Placidia
fonte

Respostas:

23

Vou listar algumas propriedades e, posteriormente, fazer uma avaliação do valor:

  • O CHAID usa divisões de várias vias por padrão (as divisões de várias vias significam que o nó atual é dividido em mais de dois nós). Isso pode ou não ser desejado (pode levar a melhores segmentos ou interpretação mais fácil). O que definitivamente faz, porém, é diminuir o tamanho da amostra nos nós e, assim, levar a árvores menos profundas. Quando usado para fins de segmentação, isso pode sair pela culatra logo que o CHAID precise de um tamanho de amostra grande para funcionar bem. O CART faz divisões binárias (cada nó é dividido em dois nós filhos) por padrão.
  • O CHAID destina-se a trabalhar com destinos categóricos / discretizados (o XAID foi para regressão, mas talvez eles tenham sido mesclados desde então). Definitivamente, o CART pode fazer regressão e classificação.
  • CHAID usa uma ideia de poda . Um nó é dividido apenas se um critério de significância for atendido. Isso está relacionado ao problema acima de precisar de amostras grandes, pois o teste do qui-quadrado tem pouco poder em amostras pequenas (o que é efetivamente reduzido ainda mais por uma correção de Bonferroni para testes múltiplos). O CART, por outro lado, cresce uma árvore grande e depois poda a árvore novamente para uma versão menor.
  • Assim, o CHAID tenta evitar o ajuste excessivo desde o início (apenas a divisão existe associação significativa), enquanto o CART pode se ajustar facilmente , a menos que a árvore seja removida. Por outro lado, isso permite que o CART tenha um desempenho melhor que o CHAID dentro e fora da amostra (para uma dada combinação de parâmetros de ajuste).
  • A diferença mais importante na minha opinião é que a seleção da variável dividida e do ponto de divisão no CHAID é menos fortemente confundida como no CART . Isso é amplamente irrelevante quando as árvores são usadas para previsão, mas é uma questão importante quando as árvores são usadas para interpretação: Diz-se que uma árvore que tem essas duas partes do algoritmo altamente confusas é "enviesada na seleção de variáveis" (um nome infeliz). . Isso significa que a seleção de variáveis ​​divididas prefere variáveis ​​com muitas divisões possíveis (por exemplo, preditores de métricas). A CART é altamente "tendenciosa" nesse sentido, CHAID não muito.
  • Com divisões substitutas, o CART sabe como lidar com valores ausentes (divisões substitutas significa que, com valores ausentes (NAs) para variáveis ​​preditoras), o algoritmo usa outras variáveis ​​preditoras que não são tão "boas" quanto a variável dividida primária, mas imitam as divisões produzidas pela primária divisor). CHAID não tem nada disso.

Portanto, dependendo do que você precisar, sugiro usar CHAID se a amostra tiver algum tamanho e os aspectos de interpretação forem mais importantes. Além disso, se se deseja divisões com várias vias ou árvores menores, o CHAID é melhor. O CART, por outro lado, é uma máquina de previsão que funciona bem, portanto, se a previsão é o seu objetivo, eu usaria o CART.

Momo
fonte
1
(+1). Visão geral agradável. Você poderia explicar o que são "divisões de várias vias" e "divisões substitutas"? As divisões de múltiplas vias se as divisões não forem dicotômicas?
precisa saber é o seguinte
1
@ Momo: Muito obrigado pela resposta atualizada. Em relação às divisões de várias vias, encontrei a seguinte declaração interessante de Hastie et al. (2013) Os elementos do aprendizado estatístico : "[...] [embora [algumas divisões com várias vias] às vezes possam ser úteis, não é uma boa estratégia geral. [...] Como as divisões com várias vias podem ser alcançadas por uma série de binários divisões, estes últimos são os preferidos ". Eu me pergunto se isso é realmente tão definido quanto eles afirmam (não tenho muita experiência com aprendizado de máquina), mas, por outro lado, o livro deles é considerado uma referência.
COOLSerdash
Sim, uma série de divisões binárias pode ser igual às divisões de várias vias. Eles também podem ser diferentes. Tendo a concordar com a afirmação. Outra coisa a se notar é que procurar pontos de divisão com pesquisa exaustiva é algoritmicamente mais simples e mais rápido para divisões binárias de um determinado nó.
Momo
Resposta muito completa. Eu usei CHAID em um reaserch com mais de 100.000 banco de dados. Nesse nível, a classificação é muito precisa, mas recomendo tentar algumas vezes com diferentes números de partições e os níveis menos profundos da árvore (o software SPSS permite determinar esses parâmetros anteriormente). Isso ocorre porque o CHAID gera árvores de classificação com vários grupos (multisplit) e muito pior se o banco de dados for grande. A árvore final pode ser enorme. Por fim, não esqueça de usar o "controle interno" da divisão de amostra do banco de dados. Veja também o manual das árvores de classificação do SPSS, disponível em goo
user35523
E QUEST ??
Madhu Sareen
8

Todos os métodos de árvore única envolvem um número impressionante de múltiplas comparações que trazem grande instabilidade ao resultado. É por isso que, para alcançar uma discriminação preditiva satisfatória, é necessária alguma forma de média das árvores (ensacamento, reforço, florestas aleatórias) (exceto que você perde a vantagem das árvores - interpretabilidade). A simplicidade das árvores isoladas é em grande parte uma ilusão. Eles são simples porque estão errados no sentido de que treinar a árvore para vários subconjuntos grandes de dados revelará grande desacordo entre as estruturas das árvores.

Não examinei nenhuma metodologia recente do CHAID, mas o CHAID em sua encarnação original foi um ótimo exercício de superinterpretação de dados.

Frank Harrell
fonte