Qual é o lado fraco das árvores de decisão?

34

As árvores de decisão parecem ser um método de aprendizado de máquina muito compreensível. Uma vez criado, pode ser facilmente inspecionado por um ser humano, o que é uma grande vantagem em algumas aplicações.

Quais são os aspectos fracos práticos das Árvores de Decisão?

Łukasz Lew
fonte

Respostas:

37

Aqui estão alguns exemplos em que posso pensar:

  • Eles podem ser extremamente sensíveis a pequenas perturbações nos dados: uma pequena alteração pode resultar em uma árvore drasticamente diferente.
  • Eles podem facilmente se superestimar. Isso pode ser negado pelos métodos de validação e remoção, mas essa é uma área cinzenta.
  • Eles podem ter problemas de previsão fora da amostra (isso está relacionado ao fato de não serem suaves).

Algumas delas estão relacionadas ao problema da multicolinearidade : quando duas variáveis ​​explicam a mesma coisa, uma árvore de decisão escolhe avidamente a melhor, enquanto muitos outros métodos as usam. Métodos de conjunto, como florestas aleatórias, podem negar isso até certo ponto, mas você perde a facilidade de entendimento.

Contudo, o maior problema, pelo menos do meu ponto de vista, é a falta de uma estrutura probabilística baseada em princípios. Muitos outros métodos têm coisas como intervalos de confiança, distribuições posteriores etc., que nos dão uma idéia de quão bom é um modelo. Uma árvore de decisão é, em última análise, uma heurística ad hoc, que ainda pode ser muito útil (eles são excelentes para encontrar as fontes de bugs no processamento de dados), mas existe o perigo de as pessoas tratarem a saída como "o" modelo correto (do meu experiência, isso acontece muito em marketing).

Simon Byrne
fonte
2
Do ponto de vista do ML, as árvores podem ser testadas da mesma maneira que qualquer outro classificador (CV, por exemplo). Ainda assim, mostra que aconteceu um super ajuste pesado ;-) Além disso, o RF escapa à multicolinearidade não porque é um conjunto, mas porque suas árvores são abaixo do ideal.
2
Para uma estrutura probabilística de árvores de decisão, consulte DTREE (url: datamining.monash.edu.au/software/dtree/index.shtml ), que é baseado no artigo "Wallace CS & Patrick JD,` Coding Trees ', Machine Learning 11, 1993, pp. 7-22 ".
emakalic
2
Além disso, não é possível obter o IC (para as previsões) usando o bootstrap?
Tal Galili
@ Simon Byrne, eu tenho uma pergunta sobre o seu comentário "No entanto, o maior problema, pelo menos do meu ponto de vista, é a falta de uma estrutura probabilística baseada em princípios". Perdoe minha ignorância, mas você poderia me indicar alguns quadros probabilísticos práticos de princípios (especificamente no contexto da classificação). Estou muito interessado nessa limitação das árvores de decisão.
Amelio Vazquez-Reina
2
@ Amm, um exemplo seria a regressão logística: podemos usar o fato de que cada observação vem de um binômio para obter intervalos de confiança / credibilidade e verificar as suposições do modelo.
22611 Simon Byrne
23

Uma desvantagem é que todos os termos devem interagir. Ou seja, você não pode ter duas variáveis ​​explicativas que se comportam independentemente. Toda variável na árvore é forçada a interagir com todas as variáveis ​​mais adiante na árvore. Isso é extremamente ineficiente se houver variáveis ​​que não tenham ou tenham interações fracas.

Rob Hyndman
fonte
Pergunto-me se isso é uma limitação prática - para uma variável que influencia apenas fracamente a classificação, minha intuição é que a Tree provavelmente não se dividirá nessa variável (ou seja, não será um nó), o que, por sua vez, significa é invisível na classificação da Árvore de Decisão.
doug
Estou falando de interações fracas, não de efeitos fracos na classificação. Uma interação é um relacionamento entre duas das variáveis ​​preditoras.
Rob Hyndman
2
Isso pode ser ineficiente, mas a estrutura da árvore pode lidar com isso.
Por isso eu disse ineficiente, em vez de tendencioso ou incorreto. Se você tem muitos dados, isso não importa muito. Mas se você ajustar uma árvore a algumas centenas de observações, as interações assumidas podem reduzir bastante a precisão preditiva.
Rob Hyndman
2
Aceita; Eu só queria destacar isso. Ainda acho que a redução da precisão preditiva pode ser removida usando o treinamento adequado; em filogenética, o problema semelhante (ganância) é reduzido pela varredura em Monte Carlo do possível espaço em árvore para encontrar os de maior probabilidade - eu não sei se existe uma abordagem semelhante nas estatísticas, provavelmente ninguém se incomodou com esse problema. extensão.
12

Minha resposta é direcionada para o CART (implementações C 4.5 / C 5), embora eu não ache que esteja limitado a ela. Meu palpite é que é isso que o OP tem em mente - geralmente é o que alguém quer dizer quando diz "Árvore de Decisão".

Limitações das árvores de decisão :


Baixa performance

Por 'performance' não quero dizer resolução, mas velocidade de execução . A razão pela qual é ruim é que você precisa 'redesenhar a árvore' toda vez que deseja atualizar seu modelo CART - dados classificados por uma árvore já treinada, que você deseja adicionar à árvore (por exemplo, usar como ponto de dados de treinamento) requer que você inicie a partir de instâncias de super-treinamento que não podem ser adicionadas gradualmente, como podem para a maioria dos outros algoritmos de aprendizado supervisionado. Talvez a melhor maneira de afirmar isso seja que as Árvores de Decisão não possam ser treinadas no modo online, apenas no modo em lote. Obviamente, você não notará essa limitação se não atualizar seu classificador, mas espero que você veja uma queda na resolução.

Isso é significativo porque, para os Perceptrons de várias camadas, por exemplo, depois de treinado, ele pode começar a classificar os dados; esses dados também podem ser usados ​​para 'ajustar' o classificador já treinado, embora com as Árvores de Decisão, você precise treinar novamente com todo o conjunto de dados (dados originais usados ​​no treinamento e novas instâncias).


Má resolução de dados com relacionamentos complexos entre as variáveis

As árvores de decisão são classificadas pela avaliação passo a passo de um ponto de dados de classe desconhecida, um nó por vez, iniciando no nó raiz e terminando com um nó terminal. E em cada nó, apenas duas possibilidades são possíveis (esquerda-direita), portanto, existem algumas relações variáveis ​​que as Árvores de Decisão simplesmente não conseguem aprender.


Praticamente limitado à classificação

As árvores de decisão funcionam melhor quando treinadas para atribuir um ponto de dados a uma classe - de preferência uma das poucas classes possíveis. Eu não acredito que alguma vez tive sucesso usando uma Árvore de Decisão no modo de regressão (ou seja, produção contínua, como preço ou receita esperada da vida útil). Esta não é uma limitação formal ou inerente, mas prática. Na maioria das vezes, as Árvores de Decisão são usadas para prever fatores ou resultados discretos.


Má resolução com variáveis ​​de expectativa contínua

Novamente, em princípio, não há problema em ter variáveis ​​independentes como "tempo de download" ou "número de dias desde a compra on-line anterior" - basta alterar seu critério de divisão para variação (geralmente é Entropia de Informação ou Impureza de Gini para variáveis ​​discretas), mas na minha experiência Árvores de decisão raramente funcionam bem nesse caso. Exceções são casos como "idade do aluno", que parecem contínuos, mas, na prática, o intervalo de valores é muito pequeno (principalmente se eles são relatados como números inteiros).

doug
fonte
1
+1 para a boa chamada no ângulo de desempenho, que geralmente não é suficiente. Vi árvores de decisão enfrentarem problemas de desempenho em várias plataformas de software projetadas para grandes conjuntos de dados (como o SQL Server), pelo menos em comparação com outros métodos de mineração de dados. Isso além de toda a questão da reciclagem que você levantou. Parece piorar nos casos em que ocorre super ajuste (embora isso possa ser dito de muitos outros algoritmos de mineração).
SQLServerSteve
10

Há boas respostas aqui, mas estou surpreso que uma coisa não tenha sido enfatizada. O CART não faz nenhuma suposição distributiva sobre os dados, particularmente a variável de resposta. Em contraste, OLS regressão (para variáveis de resposta contínuas) e regressão logística (para certas variáveis respostas categóricas), por exemplo, não fazer suposições fortes; especificamente, a regressão OLS assume que a resposta é normalmente distribuída condicionalmente e a logística assume que a resposta é binomial ou multinomial.

A falta de tais suposições da CART é uma faca de dois gumes. Quando essas suposições não se justificam, isso dá à abordagem uma vantagem relativa. Por outro lado, quando essas premissas se mantêm, mais informações podem ser extraídas dos dados levando esses fatos em consideração. Ou seja, os métodos de regressão padrão podem ser mais informativos que o CART quando as suposições são verdadeiras.

- Reinstate Monica
fonte