A regressão baseada em árvore pode ter um desempenho pior que a regressão linear simples?

9

Oi, eu estou estudando técnicas de regressão.

Meus dados têm 15 recursos e 60 milhões de exemplos (tarefa de regressão).

Quando tentei muitas técnicas conhecidas de regressão (árvore com aumento de gradiente, regressão em árvore de decisão, AdaBoostRegressor etc.), a regressão linear teve um ótimo desempenho.

Pontuação quase melhor entre esses algoritmos.

Qual pode ser a razão disso? Como meus dados têm muitos exemplos, o método baseado em TD pode se encaixar bem.

regressão linear regularizada, o laço apresentou pior desempenho

Alguém pode me falar sobre outros algoritmos de regressão com bom desempenho?

A regressão vetorial de máquina e fator de fatoração é uma boa técnica de regressão para tentar?

regression modeling deep-learning model cart aflição da amizade
fonte

2

Isso tem muito mais a ver com seus dados do que com o algoritmo. A estrutura de uma regressão linear é apenas uma boa opção para seus dados.

Matthew Drury

obrigado por responder @MatthewDrury. observando essas características, estou tentando encontrar características dos meus dados. É claramente tem pequenos recursos e muitos exemplos. e funciona melhor em regressão simples de redes neurais. e pelo fato de modelos não paramétricos, como o aumento de gradiente, funcionarem um pouco pior que a regressão paramétrica (assumindo a forma da função), posso dizer que meus dados não podem fornecer muitas informações sobre dados desconhecidos, independentemente de quantos exemplos eu possua? Estou tendo problemas para deduzir a característica dos meus dados do resultado.

amityaffliction

Primeiro trabalhe com rebressão linear múltipla e, em seguida, estude parcelas residuais para entender realmente o ajuste. Então você pode ver de que maneira o ajuste é ruim. Não jogue os dados em algoritmos diferentes, trabalhe duro para entender os ajustes.

precisa saber é o seguinte

@kjetilbhalvorsen obrigado pela resposta. Eu tenho 15 variáveis independentes. Então, como posso traçar ou obter informações do ajuste residual. pode me ajudar?

amityaffliction

11

Você não deve apenas jogar os dados em algoritmos diferentes e observar a qualidade das previsões. Você precisa entender melhor seus dados, e a maneira de fazer isso é primeiro visualizar seus dados (as distribuições marginais). Mesmo se você estiver interessado apenas finalmente nas previsões, estará em uma posição melhor para criar modelos melhores se entender melhor os dados. Portanto, primeiro, tente entender melhor os dados (e modelos simples ajustados aos dados) e, em seguida, você estará em uma posição muito melhor para criar modelos mais complexos e, esperançosamente, melhores.

r_{Eu} = Y_{Eu} - {\hat{Y}}_{Eu}, Eu = 1, 2, \dots, n

$r_i = Y_i - \hat{Y}_i, \qquad i=1, 2,\dots, n$

Para saber o que verificar, você precisa entender as suposições por trás da regressão linear, consulte O que é uma lista completa das suposições usuais para a regressão linear?

$r_i$ $\hat{Y}_i$

Outras suposições é linearidade . Para verificá-las, plote os resíduos contra cada um dos preditores no modelo. Se você vir alguma curvatura nessas plotagens, isso é uma evidência contra a linearidade. Se você encontrar não linearidade, poderá tentar algumas transformações ou (abordagem mais moderna) incluir esse preditor não linear no modelo de maneira não linear, talvez usando splines (você tem 60 milhões de exemplos, portanto, isso deve ser bastante viável! )

$x_i \cdot z_i$ $x$ $z$

Um tratamento de livro é R Dennis Cook & Sanford Weisberg: "Residuais e influência na regressão", Chapman & Hall. Um tratamento de livro mais moderno é Frank Harrell: "Estratégias de modelagem de regressão".

E, voltando à questão do título: "A regressão baseada em árvore pode ter um desempenho pior que a regressão linear simples?" Sim, claro que pode. Os modelos baseados em árvore têm como função de regressão uma função de etapa muito complexa. Se os dados realmente provêm (se comportam como simulados) de um modelo linear, as funções de etapa podem ser uma aproximação ruim. E, como mostrado nos exemplos da outra resposta, os modelos baseados em árvore podem extrapolar muito fora do intervalo dos preditores observados. Você também pode tentar randomforrest e ver o quanto isso é melhor do que uma única árvore.

kjetil b halvorsen
fonte

3

Apenas para esclarecer: quando você diz "distribuições marginais", você também pode dizer olhando para as distribuições univariadas de cada variável, correto? Eles são "marginais" no sentido de que as distribuições apareceriam nas margens de um gráfico de dispersão ou algo assim.

Mark White

Outra pergunta: você diz: "Você não deve apenas jogar os dados em algoritmos diferentes e observar a qualidade das previsões". Minha pergunta é: por que? Se você está verificando a precisão dos dados de teste, é isso. Se estivermos mais interessados em previsão, não precisaremos nos preocupar com o erro Tipo I ou algo assim que seria um problema se estivéssemos interessados em significância estatística e em vários testes.

Mark White

Mesmo se você estiver interessado apenas finalmente nas previsões, estará em uma posição melhor para meka melhores modelos se entender melhor os dados. Portanto, primeiro, tente entender melhor os dados (e os modelos simples ajustados aos dados) e, em seguida, você estará em uma posição muito melhor para criar modelos mais complexos e, se possível, melhores.

precisa saber é o seguinte

9

Peter Ellis tem um exemplo muito simples

onde a regressão linear tem um desempenho melhor que as árvores de regressão, extrapolando além dos valores observados na amostra.

Nesta imagem, os pontos pretos são os valores observados e os pontos coloridos são os valores previstos. Os dados reais são gerados de acordo com uma linha simples com algum ruído; portanto, a regressão linear e a rede neural fazem um bom trabalho de extrapolar além dos dados observados. Os modelos baseados em árvore não.

Agora, com 60 milhões de pontos de dados, você pode não estar preocupado com isso. (O futuro sempre consegue me surpreender!) Mas é uma ilustração intuitiva de uma situação em que as árvores falham.

Andy W
fonte

obrigado pela resposta intuitiva. mesmo tendo muitos pontos de dados, considerando as características dos meus dados, acho que ele não extrapola!

amityaffliction

desde que o modelo baseado em NN tenha um desempenho melhor que a regressão linear.

amityaffliction

mais uma pergunta. É 'difícil extrapolar' o problema comum das técnicas de regressão não paramétricas?

amityaffliction

Não paramétrico é uma rede ampla. Para extrapolar, você precisa identificar algumas funções contínuas subjacentes. Os modelos de árvore são mais como identificar muitos pequenos passos, portanto, eles não seguem a linha fora do domínio da amostra observada neste exemplo.

Andy W

5

É um fato bem conhecido que as árvores não são adequadas para modelar relacionamentos verdadeiramente lineares. Aqui está uma ilustração (Fig 8.7) do livro ISLR :

Linha superior: um exemplo de classificação bidimensional no qual o verdadeiro limite de decisão é linear e é indicado pelas regiões sombreadas. Uma abordagem clássica que assume um limite linear (esquerda) supera uma árvore de decisão que realiza divisões paralelas aos eixos (direita).

Portanto, se sua variável dependente depende dos regressores de maneira mais ou menos linear, você esperaria que "a regressão linear tenha um ótimo desempenho".

Markus Loecher
fonte

2

Qualquer abordagem baseada em árvore de decisão (CART, C5.0, florestas aleatórias, árvores de regressão reforçada etc.) identifica áreas homogêneas em seus dados e atribui o valor médio dos dados contidos nessa região à 'licença' correspondente. Portanto, eles são granulares e, em seguida, devem mostrar uma série de etapas nas saídas. Aqueles baseados em 'florestas' não mostram esse fenômeno acentuadamente, mas ele ainda está lá. A agregação de um grande número de árvores a nuances. Quando um determinado valor está fora do intervalo original, o dado é atribuído à 'licença' que inclui a condição extrema encontrada no conjunto de dados de treinamento e a saída é consequentemente o valor médio dos valores contidos nessa licença. Assim, nenhuma extrapolação é possível. A propósito, as RNAs são extrapoladoras pobres. Você pode checar: Pichaid Varoonchotikul - Previsão de inundação usando Artificial Neural e Hettiarachchi et al. A extrapolação de redes neurais artificiais para a modelagem de chuvas - relações de escoamento são muito ilustrativas e fáceis de encontrar na rede! Boa sorte!

Rafa_Mas
fonte

A regressão baseada em árvore pode ter um desempenho pior que a regressão linear simples?

Respostas: