Aqui estão alguns exemplos em que posso pensar:
- Eles podem ser extremamente sensíveis a pequenas perturbações nos dados: uma pequena alteração pode resultar em uma árvore drasticamente diferente.
- Eles podem facilmente se superestimar. Isso pode ser negado pelos métodos de validação e remoção, mas essa é uma área cinzenta.
- Eles podem ter problemas de previsão fora da amostra (isso está relacionado ao fato de não serem suaves).
Algumas delas estão relacionadas ao problema da multicolinearidade : quando duas variáveis explicam a mesma coisa, uma árvore de decisão escolhe avidamente a melhor, enquanto muitos outros métodos as usam. Métodos de conjunto, como florestas aleatórias, podem negar isso até certo ponto, mas você perde a facilidade de entendimento.
Contudo, o maior problema, pelo menos do meu ponto de vista, é a falta de uma estrutura probabilística baseada em princípios. Muitos outros métodos têm coisas como intervalos de confiança, distribuições posteriores etc., que nos dão uma idéia de quão bom é um modelo. Uma árvore de decisão é, em última análise, uma heurística ad hoc, que ainda pode ser muito útil (eles são excelentes para encontrar as fontes de bugs no processamento de dados), mas existe o perigo de as pessoas tratarem a saída como "o" modelo correto (do meu experiência, isso acontece muito em marketing).
Uma desvantagem é que todos os termos devem interagir. Ou seja, você não pode ter duas variáveis explicativas que se comportam independentemente. Toda variável na árvore é forçada a interagir com todas as variáveis mais adiante na árvore. Isso é extremamente ineficiente se houver variáveis que não tenham ou tenham interações fracas.
fonte
Minha resposta é direcionada para o CART (implementações C 4.5 / C 5), embora eu não ache que esteja limitado a ela. Meu palpite é que é isso que o OP tem em mente - geralmente é o que alguém quer dizer quando diz "Árvore de Decisão".
Limitações das árvores de decisão :
Baixa performance
Por 'performance' não quero dizer resolução, mas velocidade de execução . A razão pela qual é ruim é que você precisa 'redesenhar a árvore' toda vez que deseja atualizar seu modelo CART - dados classificados por uma árvore já treinada, que você deseja adicionar à árvore (por exemplo, usar como ponto de dados de treinamento) requer que você inicie a partir de instâncias de super-treinamento que não podem ser adicionadas gradualmente, como podem para a maioria dos outros algoritmos de aprendizado supervisionado. Talvez a melhor maneira de afirmar isso seja que as Árvores de Decisão não possam ser treinadas no modo online, apenas no modo em lote. Obviamente, você não notará essa limitação se não atualizar seu classificador, mas espero que você veja uma queda na resolução.
Isso é significativo porque, para os Perceptrons de várias camadas, por exemplo, depois de treinado, ele pode começar a classificar os dados; esses dados também podem ser usados para 'ajustar' o classificador já treinado, embora com as Árvores de Decisão, você precise treinar novamente com todo o conjunto de dados (dados originais usados no treinamento e novas instâncias).
Má resolução de dados com relacionamentos complexos entre as variáveis
As árvores de decisão são classificadas pela avaliação passo a passo de um ponto de dados de classe desconhecida, um nó por vez, iniciando no nó raiz e terminando com um nó terminal. E em cada nó, apenas duas possibilidades são possíveis (esquerda-direita), portanto, existem algumas relações variáveis que as Árvores de Decisão simplesmente não conseguem aprender.
Praticamente limitado à classificação
As árvores de decisão funcionam melhor quando treinadas para atribuir um ponto de dados a uma classe - de preferência uma das poucas classes possíveis. Eu não acredito que alguma vez tive sucesso usando uma Árvore de Decisão no modo de regressão (ou seja, produção contínua, como preço ou receita esperada da vida útil). Esta não é uma limitação formal ou inerente, mas prática. Na maioria das vezes, as Árvores de Decisão são usadas para prever fatores ou resultados discretos.
Má resolução com variáveis de expectativa contínua
Novamente, em princípio, não há problema em ter variáveis independentes como "tempo de download" ou "número de dias desde a compra on-line anterior" - basta alterar seu critério de divisão para variação (geralmente é Entropia de Informação ou Impureza de Gini para variáveis discretas), mas na minha experiência Árvores de decisão raramente funcionam bem nesse caso. Exceções são casos como "idade do aluno", que parecem contínuos, mas, na prática, o intervalo de valores é muito pequeno (principalmente se eles são relatados como números inteiros).
fonte
Há boas respostas aqui, mas estou surpreso que uma coisa não tenha sido enfatizada. O CART não faz nenhuma suposição distributiva sobre os dados, particularmente a variável de resposta. Em contraste, OLS regressão (para variáveis de resposta contínuas) e regressão logística (para certas variáveis respostas categóricas), por exemplo, não fazer suposições fortes; especificamente, a regressão OLS assume que a resposta é normalmente distribuída condicionalmente e a logística assume que a resposta é binomial ou multinomial.
A falta de tais suposições da CART é uma faca de dois gumes. Quando essas suposições não se justificam, isso dá à abordagem uma vantagem relativa. Por outro lado, quando essas premissas se mantêm, mais informações podem ser extraídas dos dados levando esses fatos em consideração. Ou seja, os métodos de regressão padrão podem ser mais informativos que o CART quando as suposições são verdadeiras.
fonte