Este artigo afirma que no CART, como uma divisão binária é realizada em uma única covariável em cada etapa, todas as divisões são ortogonais e, portanto, as interações entre covariáveis não são consideradas.
No entanto, muitas referências muito sérias afirmam, pelo contrário, que a estrutura hierárquica de uma árvore garante que as interações entre preditores sejam modeladas automaticamente (por exemplo, este artigo e, claro, o Hastie).
Quem está certo? As árvores cultivadas pela CART capturam interações entre variáveis de entrada?
Respostas:
O CART pode capturar efeitos de interação. Um efeito de interação entre e ocorre quando o efeito da variável explicativa na variável de resposta depende do nível de . Isso acontece no seguinte exemplo:X1 1 X2 X1 1 Y X2
O efeito de más condições econômicas (chame isso de ) depende de que tipo de edifício está sendo comprado ( ). Ao investir em um prédio de escritórios, más condições econômicas diminuem o valor previsto do investimento em 140.000 dólares. Porém, ao investir em um prédio de apartamentos, o valor previsto do investimento diminui em 20.000 dólares. O efeito de más condições econômicas no valor previsto do seu investimento depende do tipo de imóvel que está sendo comprado. Este é um efeito de interação.X1 1 X2
fonte
Resposta curta
Os CARROS precisam de ajuda para capturar interações.
Resposta longa
Pegue o algoritmo guloso exato (Chen e Guestrin, 2016):
A média na folha será uma expectativa condicional, mas cada divisão no caminho para a folha é independente da outra. Se o Recurso A não importa por si só, mas importa em interação com o Recurso B, o algoritmo não será dividido no Recurso A. Sem essa divisão, o algoritmo não pode prever a divisão no Recurso B, necessária para gerar a interação.
As árvores podem escolher interações nos cenários mais simples. Se você tiver um conjunto de dados com dois recursos e o destino , o algoritmo não terá nada para dividir, exceto e , portanto, você obterá quatro folhas com o estimado adequadamente.x1 1, x2 y= XO R ( x1 1, x2) x1 1 x2 XO R
Com muitos recursos, regularização e o limite rígido do número de divisões, o mesmo algoritmo pode omitir interações.
Soluções alternativas
Interações explícitas como novos recursos
Um exemplo de Zhang ("Winning Data Science Competitions", 2015):
Algoritmos de árvore não gananciosos
Na outra questão, Simone sugere algoritmos baseados em lookahead e árvores de decisão oblíquas .
Uma abordagem de aprendizado diferente
Alguns métodos de aprendizado lidam melhor com as interações.
Aqui está uma tabela de The Elements of Statistical Learning (linha "Capacidade de extrair combinações lineares de recursos"):
fonte