Como as divisões da árvore de decisão devem ser implementadas ao prever variáveis ​​contínuas?

15

Na verdade, estou escrevendo uma implementação do Random Forests, mas acredito que a pergunta é específica para as árvores de decisão (independentes dos RFs).

Portanto, o contexto é que estou criando um nó em uma árvore de decisão e as variáveis ​​de previsão e de destino são contínuas. O nó possui um limite de divisão para particionar dados em dois conjuntos, e eu crio uma nova previsão para cada subconjunto com base no valor-alvo médio em cada conjunto. Essa é a abordagem correta?

A razão pela qual pergunto é que, ao prever variáveis binárias , acredito que a abordagem típica (correta?) É dividir os dados em subconjuntos 0 e 1 sem medir a média das linhas de dados em cada subconjunto. As divisões subsequentes serão divididas em subconjuntos de granulação mais fina, e a média de cada divisão será dividida em subseqüentes (mais abaixo na árvore de decisão) operando no que agora são variáveis ​​contínuas, em vez de variáveis ​​binárias (porque estamos operando com os valores de erro residual em vez dos originais metas).

Pergunta secundária: A distinção entre as duas abordagens (binária x contínua) é significativa - ou elas realmente fornecerão resultados idênticos para uma árvore de decisão completa?

redcalx
fonte
11
A divisão em uma variável contínua garantirá que o "modelo" resultante não se ajuste adequadamente aos dados. Se você tiver um X contínuo e um Y contínuo, considere usar o loess não paramétrico mais suave.
precisa
O problema no qual estou trabalhando agora tem muitas variáveis ​​preditoras (uma mistura de contínua e binária) e uma única variável de destino. Portanto, acredito que a RF é uma abordagem razoável a ser adotada.
redcalx
2
Muito provavelmente sim. Mas uma floresta aleatória é uma mistura de árvores (não é uma árvore de decisão), portanto, aproxima relações contínuas fazendo várias divisões e, com efeito, usando o encolhimento. Portanto, não acho que sua pergunta original se aplique, se eu entendi.
Frank Harrell
Estou tentado a dizer que a sua descrição do caso contínuo está correta (ou seja, a maneira padrão de fazer as coisas), mas, em seguida, a sua descrição do caso variável binária não corresponde em absoluto com o meu entendimento das florestas como aleatórios (ou decisão árvores) funcionam, então estou preocupado que um de nós esteja confuso.
joran
@joran. Sim, ao forçar as previsões como 0 ou 1, você perde a capacidade de fazer ajustes sutis nas previsões (entre 0 e 1) que podem diminuir o erro (por exemplo, erro médio de previsão ao quadrado). Como tal, suspeito que essa abordagem seja inferior. Eu tentei e a maioria das tentativas de construir uma árvore de decisão falha ao encontrar até uma única divisão que melhora o erro.
redcalx

Respostas:

10

Um possível problema com as árvores é que elas tendem a se encaixar mal nas caudas. Pense em um nó terminal que captura a faixa baixa do conjunto de treinamento. Ele irá prever o uso da média desses pontos de ajuste de treinamento, que sempre subestimarão o resultado (já que é a média).

Você pode tentar modelar árvores [1]. Isso ajustará modelos lineares nos nós terminais e (eu acho) fará um trabalho melhor do que as árvores de regressão. Melhor ainda, use uma versão mais evoluída chamada Cubist, que combina diferentes abordagens ([1] e [2] abaixo).

Esses modelos também lidam com preditores contínuos e discretos de maneira diferente. Eles podem fazer divisões de várias maneiras para variáveis ​​categóricas. O critério de divisão é muito semelhante às árvores CART.

Árvores modelo podem ser encontradas em R no pacote RWeka (chamado 'M5P') e Cubist está no pacote Cubist. Obviamente, você também pode usar o Weka e o Cubist tem uma versão C disponível no site RuleQuest.

[1] Quinlan, J. (1992). Aprendendo com aulas contínuas. Anais da 5ª Conferência Conjunta Australiana sobre Inteligência Artificial, 343-348.

[2] Quinlan, J. (1993). Combinando aprendizado baseado em instância e modelo. Anais da Décima Conferência Internacional sobre Aprendizado de Máquina, 236–243.

topepo
fonte
11
Você não poderia simplesmente ter árvores mais profundas para minimizar o mau encaixe nas caudas?
Jase