As árvores de regressão podem prever continuamente?

11

Suponha que eu tenha uma função suave como . Eu tenho um conjunto de treinamento D \ subsetneq \ {((x, y), f (x, y)) | (x, y) \ in \ mathbb {R} ^ 2 \} e, é claro, eu não sei f, embora possa avaliar f onde quiser. D { ( ( x , y ) , f ( x , y ) ) | ( x , y ) R 2 } f ff(x,y)=x2+y2D{((x,y),f(x,y))|(x,y)R2}ff

As árvores de regressão são capazes de encontrar um modelo suave da função (portanto, uma pequena alteração na entrada deve fornecer apenas uma pequena alteração na saída)?

Pelo que li na Aula 10: Árvores de regressão , parece-me que as árvores de regressão basicamente colocam os valores das funções nos compartimentos:

Para árvores de regressão clássicas, o modelo em cada célula é apenas uma estimativa constante de Y.

Enquanto escrevem "clássico", acho que há uma variante em que as células fazem algo mais interessante?

Martin Thoma
fonte

Respostas:

2

As árvores de regressão, particularmente o aumento de gradiente (essencialmente muitas árvores), tendem a se sair muito bem em previsões contínuas, geralmente superando modelos que são verdadeiramente contínuos como a regressão linear quando. Isso é especialmente verdade quando há interações variáveis ​​e quando você tem um conjunto de dados suficientemente grande (mais de 10.000 registros), de modo que a adaptação é menos provável. Se seu objetivo principal é simplesmente poder preditivo, se o modelo é 100% contínuo ou pseudo-contínuo deve ser irrelevante. Se tornar suas árvores de regressão mais contínuas aumentar o poder preditivo da amostra, você poderá simplesmente aumentar a profundidade da árvore ou adicionar mais árvores.

Ryan Zotti
fonte
11
Concordo. Minhas árvores impulsionadas quase sempre superam GLMs muito trabalhadas e otimizadas. Obviamente, você perde a interpretabilidade quando ganha poder preditivo.
prooffreader
0

Nas árvores de regressão clássicas, você tem um valor único na folha, mas na folha você pode ter um modelo de regressão linear, verifique este ticket.

Você também pode usar o conjunto de árvores (Random Forest ou Gradient Boosting Machines) para ter um valor de saída contínuo.

pplonski
fonte
0

Se você estender levemente a pergunta para incluir técnicas gerais de aumento de gradiente (em contraste com o caso especial de árvores de regressão aumentada), a resposta é sim. O aumento de gradiente tem sido usado com sucesso como uma alternativa para a seleção de variáveis. Um bom exemplo é o pacote mboost . A chave é que a classe de alunos base usada para impulsionar consiste em modelos contínuos para começar. Este tutorial descreve classes típicas de alunos da base da seguinte maneira:

Os modelos de alunos de base comumente usados ​​podem ser classificados em três categorias distintas: modelos lineares, modelos suaves e árvores de decisão. Há também vários outros modelos, como campos aleatórios markov (Dietterich et al., 2004) ou wavelets (Viola e Jones, 2001), mas sua aplicação surge para tarefas práticas relativamente específicas.

Observe que ele menciona particularmente wavelets. Árvores e wavelets foram combinadas com sucesso antes em wavelets baseadas em árvores.

user3605620
fonte
Quais são os alunos de base contínua no aumento de gradiente? Se a resposta for árvores de decisão, você poderia explicar como elas são contínuas?
Martin Thoma
Eu atualizei minha resposta. A chave é usar preditores contínuos do tipo árvore.
User3605620