Florestas aleatórias são usadas para regressão. No entanto, pelo que entendi, eles atribuem um valor-alvo médio a cada folha. Como há apenas folhas limitadas em cada árvore, existem apenas valores específicos que a meta pode atingir em nosso modelo de regressão. Portanto, não é apenas uma regressão "discreta" (como uma função de etapa) e não uma regressão linear que é "contínua"?
Estou entendendo isso corretamente? Se sim, que vantagem a floresta aleatória oferece na regressão?
regression
random-forest
cart
user110565
fonte
fonte
Respostas:
Isso está correto - as florestas aleatórias discretizam variáveis contínuas, pois são baseadas em árvores de decisão, que funcionam através do particionamento binário recursivo. Porém, com dados suficientes e divisões suficientes, uma função de etapa com muitas etapas pequenas pode se aproximar de uma função suave. Portanto, isso não precisa ser um problema. Se você realmente deseja capturar uma resposta suave por um único preditor, calcula o efeito parcial de qualquer variável específica e ajusta uma função suave a ela (isso não afeta o modelo em si, o que reterá esse caractere gradual).
As florestas aleatórias oferecem algumas vantagens sobre as técnicas de regressão padrão para algumas aplicações. Para mencionar apenas três:
Quanto a se é uma regressão "verdadeira", isso é um tanto semântico. Afinal, a regressão por partes também é regressão, mas também não é suave. Como é qualquer regressão com um preditor categórico, conforme apontado nos comentários abaixo.
fonte
É discreto, mas qualquer saída na forma de um número de ponto flutuante com número fixo de bits será discreta. Se uma árvore tiver 100 folhas, poderá fornecer 100 números diferentes. Se você tiver 100 árvores diferentes com 100 folhas cada, sua floresta aleatória pode teoricamente ter 100 ^ 100 valores diferentes, o que pode fornecer 200 dígitos (decimais) de precisão ou ~ 600 bits. Claro, haverá alguma sobreposição, então você não verá 100 ^ 100 valores diferentes. A distribuição tende a ficar mais discreta quanto mais você chega aos extremos; cada árvore terá uma folha mínima (uma folha que produza uma quantidade menor ou igual a todas as outras folhas) e, uma vez que você obtenha a folha mínima de cada árvore, não poderá ficar mais baixa. Então, haverá algum valor geral mínimo para a floresta, e à medida que se desvia desse valor, você começa com poucas árvores na folha mínima, fazendo pequenos desvios do aumento do valor mínimo em saltos discretos. Mas a confiabilidade reduzida nos extremos é uma propriedade das regressões em geral, não apenas de florestas aleatórias.
fonte
A resposta dependerá de qual é a sua definição de regressão, consulte Definição e delimitação do modelo de regressão . Mas uma definição usual (ou parte de uma definição) é que a regressão modela a expectativa condicional . E uma árvore de regressão pode realmente ser vista como um estimador de expectativa condicional.
Nos nós das folhas, você prediz a média das observações da amostra que atingem essa folha, e uma média aritmética é um estimador de uma expectativa. O padrão de ramificação na árvore representa o condicionamento.
fonte