A floresta aleatória para regressão é uma regressão 'verdadeira'?

18

Florestas aleatórias são usadas para regressão. No entanto, pelo que entendi, eles atribuem um valor-alvo médio a cada folha. Como há apenas folhas limitadas em cada árvore, existem apenas valores específicos que a meta pode atingir em nosso modelo de regressão. Portanto, não é apenas uma regressão "discreta" (como uma função de etapa) e não uma regressão linear que é "contínua"?

Estou entendendo isso corretamente? Se sim, que vantagem a floresta aleatória oferece na regressão?

user110565
fonte

Respostas:

23

Isso está correto - as florestas aleatórias discretizam variáveis ​​contínuas, pois são baseadas em árvores de decisão, que funcionam através do particionamento binário recursivo. Porém, com dados suficientes e divisões suficientes, uma função de etapa com muitas etapas pequenas pode se aproximar de uma função suave. Portanto, isso não precisa ser um problema. Se você realmente deseja capturar uma resposta suave por um único preditor, calcula o efeito parcial de qualquer variável específica e ajusta uma função suave a ela (isso não afeta o modelo em si, o que reterá esse caractere gradual).

As florestas aleatórias oferecem algumas vantagens sobre as técnicas de regressão padrão para algumas aplicações. Para mencionar apenas três:

  1. Eles permitem o uso arbitrário de muitos preditores (é possível mais preditores do que pontos de dados)
  2. Eles podem aproximar formas não lineares complexas sem especificação a priori
  3. Eles podem capturar interações complexas entre previsões sem especificação a priori .

Quanto a se é uma regressão "verdadeira", isso é um tanto semântico. Afinal, a regressão por partes também é regressão, mas também não é suave. Como é qualquer regressão com um preditor categórico, conforme apontado nos comentários abaixo.

mkt - Restabelecer Monica
fonte
7
Além disso, a regressão apenas com recursos categóricos também não seria suave.
Tim
3
Poderia uma regressão com um único recurso categórico ser suave?
Dave
4

É discreto, mas qualquer saída na forma de um número de ponto flutuante com número fixo de bits será discreta. Se uma árvore tiver 100 folhas, poderá fornecer 100 números diferentes. Se você tiver 100 árvores diferentes com 100 folhas cada, sua floresta aleatória pode teoricamente ter 100 ^ 100 valores diferentes, o que pode fornecer 200 dígitos (decimais) de precisão ou ~ 600 bits. Claro, haverá alguma sobreposição, então você não verá 100 ^ 100 valores diferentes. A distribuição tende a ficar mais discreta quanto mais você chega aos extremos; cada árvore terá uma folha mínima (uma folha que produza uma quantidade menor ou igual a todas as outras folhas) e, uma vez que você obtenha a folha mínima de cada árvore, não poderá ficar mais baixa. Então, haverá algum valor geral mínimo para a floresta, e à medida que se desvia desse valor, você começa com poucas árvores na folha mínima, fazendo pequenos desvios do aumento do valor mínimo em saltos discretos. Mas a confiabilidade reduzida nos extremos é uma propriedade das regressões em geral, não apenas de florestas aleatórias.

Acumulação
fonte
As folhas podem armazenar qualquer valor dos dados de treinamento (portanto, com os dados corretos de treinamento, 100 árvores de 100 folhas podem armazenar até 10.000 valores distintos). Mas o valor retornado é a média da folha escolhida de cada árvore. Portanto, o número de bits de precisão desse valor é o mesmo, se você tem 2 ou 100 árvores.
Darren Cook
3

A resposta dependerá de qual é a sua definição de regressão, consulte Definição e delimitação do modelo de regressão . Mas uma definição usual (ou parte de uma definição) é que a regressão modela a expectativa condicional . E uma árvore de regressão pode realmente ser vista como um estimador de expectativa condicional.

Nos nós das folhas, você prediz a média das observações da amostra que atingem essa folha, e uma média aritmética é um estimador de uma expectativa. O padrão de ramificação na árvore representa o condicionamento.

kjetil b halvorsen
fonte