Quando se trata de árvores de decisão, o valor previsto pode estar fora do intervalo dos dados de treinamento?
Por exemplo, se o intervalo do conjunto de dados de treinamento da variável de destino for de 0 a 100, quando eu gerar meu modelo e aplicá-lo a outra coisa, meus valores podem ser -5? ou 150?
Dado que meu entendimento da regressão da árvore de decisão é que ela ainda é baseada em regras - progressão esquerda / direita e que, na parte inferior da árvore no conjunto de treinamento, ela nunca pode ver um valor fora de um determinado intervalo, nunca será capaz de prever isso?
regression
predictive-models
random-forest
cart
user3788557
fonte
fonte
Respostas:
Você está completamente certo: as árvores de decisão clássicas não podem prever valores fora do intervalo observado historicamente. Eles não vão extrapolar.
O mesmo se aplica a florestas aleatórias.
Teoricamente, às vezes você vê discussões de arquiteturas um pouco mais elaboradas (botânicas?), Onde as folhas da árvore não dão um único valor , mas contêm uma regressão simples , por exemplo, regredindo a variável dependente em uma variável independente numérica específica. Navegar pela árvore forneceria um conjunto de regras em que IV numérico para regredir o DV, em que caso. Nesse caso, essa regressão de "nível inferior" pode ser extrapolada para produzir valores ainda não observados.
No entanto, não acho que as bibliotecas padrão de aprendizado de máquina ofereçam essa estrutura um pouco mais complexa (recentemente procurei por meio das CRAN Task Views for R), embora não deva haver realmente nada de complexo nisso. Você pode implementar sua própria árvore contendo regressões nas folhas.
fonte
mobForest
pacote foi removido do CRAN . Vou dar uma olhada nopartykit
pacote que Achim Zeileis recomendou .Verifique também o cubist no pacote de intercalação. Ele cria regressões lineares nos nós terminais e pode extrapolar previsões acima e abaixo do intervalo de valores de resposta nos dados de treinamento. Os nós terminais também podem ser calculados com base nos vizinhos mais próximos, que são fornecidos como um hiperparâmetro, portanto, ele tem potencial para fornecer previsões validadas cruzadas extremamente precisas.
fonte