Na verdade, estou escrevendo uma implementação do Random Forests, mas acredito que a pergunta é específica para as árvores de decisão (independentes dos RFs).
Portanto, o contexto é que estou criando um nó em uma árvore de decisão e as variáveis de previsão e de destino são contínuas. O nó possui um limite de divisão para particionar dados em dois conjuntos, e eu crio uma nova previsão para cada subconjunto com base no valor-alvo médio em cada conjunto. Essa é a abordagem correta?
A razão pela qual pergunto é que, ao prever variáveis binárias , acredito que a abordagem típica (correta?) É dividir os dados em subconjuntos 0 e 1 sem medir a média das linhas de dados em cada subconjunto. As divisões subsequentes serão divididas em subconjuntos de granulação mais fina, e a média de cada divisão será dividida em subseqüentes (mais abaixo na árvore de decisão) operando no que agora são variáveis contínuas, em vez de variáveis binárias (porque estamos operando com os valores de erro residual em vez dos originais metas).
Pergunta secundária: A distinção entre as duas abordagens (binária x contínua) é significativa - ou elas realmente fornecerão resultados idênticos para uma árvore de decisão completa?
fonte
Respostas:
Um possível problema com as árvores é que elas tendem a se encaixar mal nas caudas. Pense em um nó terminal que captura a faixa baixa do conjunto de treinamento. Ele irá prever o uso da média desses pontos de ajuste de treinamento, que sempre subestimarão o resultado (já que é a média).
Você pode tentar modelar árvores [1]. Isso ajustará modelos lineares nos nós terminais e (eu acho) fará um trabalho melhor do que as árvores de regressão. Melhor ainda, use uma versão mais evoluída chamada Cubist, que combina diferentes abordagens ([1] e [2] abaixo).
Esses modelos também lidam com preditores contínuos e discretos de maneira diferente. Eles podem fazer divisões de várias maneiras para variáveis categóricas. O critério de divisão é muito semelhante às árvores CART.
Árvores modelo podem ser encontradas em R no pacote RWeka (chamado 'M5P') e Cubist está no pacote Cubist. Obviamente, você também pode usar o Weka e o Cubist tem uma versão C disponível no site RuleQuest.
[1] Quinlan, J. (1992). Aprendendo com aulas contínuas. Anais da 5ª Conferência Conjunta Australiana sobre Inteligência Artificial, 343-348.
[2] Quinlan, J. (1993). Combinando aprendizado baseado em instância e modelo. Anais da Décima Conferência Internacional sobre Aprendizado de Máquina, 236–243.
fonte