As árvores CART capturam interações entre preditores?

9

Este artigo afirma que no CART, como uma divisão binária é realizada em uma única covariável em cada etapa, todas as divisões são ortogonais e, portanto, as interações entre covariáveis não são consideradas.

No entanto, muitas referências muito sérias afirmam, pelo contrário, que a estrutura hierárquica de uma árvore garante que as interações entre preditores sejam modeladas automaticamente (por exemplo, este artigo e, claro, o Hastie).

Quem está certo? As árvores cultivadas pela CART capturam interações entre variáveis de entrada?

machine-learning classification data-mining cart Antoine
fonte

A falha no argumento é que as divisões são feitas em subconjuntos de covariáveis definidas por divisões feitas anteriormente.

@mbq para que as novas divisões sejam condicionais em relação às divisões anteriores ... Entendo ... Acho que estava tendo problemas para entender que "condicionado por uma divisão anterior feita em um determinado preditor" era equivalente a "interagir com esse preditor "...

Antoine

12

O CART pode capturar efeitos de interação. Um efeito de interação entre e ocorre quando o efeito da variável explicativa na variável de resposta depende do nível de . Isso acontece no seguinte exemplo: $X_1$ $X_2$ $X_1$ $Y$ $X_2$

insira a descrição da imagem aqui

O efeito de más condições econômicas (chame isso de ) depende de que tipo de edifício está sendo comprado ( ). Ao investir em um prédio de escritórios, más condições econômicas diminuem o valor previsto do investimento em 140.000 dólares. Porém, ao investir em um prédio de apartamentos, o valor previsto do investimento diminui em 20.000 dólares. O efeito de más condições econômicas no valor previsto do seu investimento depende do tipo de imóvel que está sendo comprado. Este é um efeito de interação. $X_1$ $X_2$

TrynnaDoStat
fonte

2

Resposta curta

Os CARROS precisam de ajuda para capturar interações.

Resposta longa

Pegue o algoritmo guloso exato (Chen e Guestrin, 2016):

A média na folha será uma expectativa condicional, mas cada divisão no caminho para a folha é independente da outra. Se o Recurso A não importa por si só, mas importa em interação com o Recurso B, o algoritmo não será dividido no Recurso A. Sem essa divisão, o algoritmo não pode prever a divisão no Recurso B, necessária para gerar a interação.

As árvores podem escolher interações nos cenários mais simples. Se você tiver um conjunto de dados com dois recursos e o destino , o algoritmo não terá nada para dividir, exceto e , portanto, você obterá quatro folhas com o estimado adequadamente. $x_1, x_2$ $y = XOR(x_1, x_2)$ $x_1$ $x_2$ $XOR$

Com muitos recursos, regularização e o limite rígido do número de divisões, o mesmo algoritmo pode omitir interações.

Soluções alternativas

Interações explícitas como novos recursos

Um exemplo de Zhang ("Winning Data Science Competitions", 2015):

Algoritmos de árvore não gananciosos

Na outra questão, Simone sugere algoritmos baseados em lookahead e árvores de decisão oblíquas .

Uma abordagem de aprendizado diferente

Alguns métodos de aprendizado lidam melhor com as interações.

Aqui está uma tabela de The Elements of Statistical Learning (linha "Capacidade de extrair combinações lineares de recursos"):

Anton Tarasenko
fonte