Estou um pouco confuso sobre quando você deve ou não adicionar termos polinomiais a um modelo de regressão linear múltipla. Eu sei que polinômios são usados para capturar a curvatura nos dados, mas sempre parece estar na forma de:
E se você souber que existe um relacionamento linear entre e , mas um relacionamento não linear entre e ? Você pode usar um modelo na forma de:
Acho que minha pergunta é: é válido descartar o termo e o termo , ou você precisa seguir a forma genérica de um modelo de regressão polinomial?
Respostas:
Além da excelente resposta do @ mkt, pensei em fornecer um exemplo específico para você ver, para que possa desenvolver alguma intuição.
Gerar dados por exemplo
Neste exemplo, eu gerei alguns dados usando R da seguinte maneira:
Como você pode ver acima, os dados vêm do modelo , em que é um termo de erro aleatório distribuído normalmente com média e variância desconhecida . Além disso, , , e , enquanto .y= β0 0+ β1∗ x1+ β2∗ x2+ β3∗ x22+ ϵ ϵ 0 0 σ2 β0 0= 1 β1= 10 β2= 0,4 β3= 0,8 σ= 1
Visualize os dados gerados por coplots
Dados os dados simulados na variável de resultado y e as variáveis preditoras x1 e x2, podemos visualizar esses dados usando coplots :
Os coplots resultantes são mostrados abaixo.
O primeiro coplot mostra gráficos de dispersão de y versus x1 quando x2 pertence a quatro intervalos diferentes de valores observados (que se sobrepõem) e aprimora cada um desses gráficos de dispersão com um ajuste suave, possivelmente não linear, cuja forma é estimada a partir dos dados.
O segundo coplot mostra gráficos de dispersão de y versus x2 quando x1 pertence a quatro intervalos diferentes de valores observados (que se sobrepõem) e aprimora cada um desses gráficos de dispersão com um ajuste suave.
O primeiro coplot sugere que é razoável supor que x1 tenha um efeito linear em y ao controlar x2 e que esse efeito não dependa de x2.
O segundo coplote sugere que é razoável supor que x2 tenha um efeito quadrático em y ao controlar x1 e que esse efeito não dependa de x1.
Ajustar um modelo corretamente especificado
Os coplots sugerem ajustar o seguinte modelo aos dados, o que permite um efeito linear de x1 e um efeito quadrático de x2:
Construir parcelas residuais do componente mais para o modelo especificado corretamente
Depois que o modelo especificado corretamente é ajustado aos dados, podemos examinar os gráficos de componente mais residual para cada preditor incluído no modelo:
Esses componentes mais plotagens residuais são mostrados abaixo e sugerem que o modelo foi especificado corretamente, pois não mostram evidência de não linearidade etc. De fato, em cada uma dessas plotagens, não há discrepância óbvia entre a linha azul pontilhada, sugestiva de um efeito linear de o preditor correspondente e a linha magenta sólida sugestiva de um efeito não linear desse preditor no modelo.
Ajustar um modelo especificado incorretamente
Vamos interpretar o advogado do diabo e dizer que nosso modelo lm () foi de fato especificado incorretamente (ou seja, não especificado), no sentido de que ele omitiu o termo quadrático I (x2 ^ 2):
Construir parcelas residuais do componente mais para o modelo especificado incorretamente
Se construíssemos parcelas de componentes mais resíduos para o modelo não especificado, veríamos imediatamente uma sugestão de não linearidade do efeito de x2 no modelo não especificado:
Em outras palavras, como visto abaixo, o modelo mal especificado não conseguiu capturar o efeito quadrático de x2 e esse efeito aparece no componente mais o gráfico residual correspondente ao preditor x2 no modelo mal especificado.
A especificação incorreta do efeito de x2 no modelo m.mis também seria aparente ao examinar plotagens dos resíduos associados a esse modelo em relação a cada um dos preditores x1 e x2:
Como visto abaixo, o gráfico de resíduos associados a m.mis versus x2 exibe um padrão quadrático claro, sugerindo que o modelo m.mis falhou em capturar esse padrão sistemático.
Aumentar o modelo especificado incorretamente
Para especificar corretamente o modelo m.mis, precisaríamos aumentá-lo para incluir também o termo I (x2 ^ 2):
Aqui estão os gráficos dos resíduos versus x1 e x2 para este modelo especificado corretamente:
Observe que o padrão quadrático observado anteriormente na plotagem de resíduos versus x2 para o modelo mal especificado m.mis agora desapareceu da plotagem de resíduos versus x2 para o modelo especificado corretamente m.
Observe que o eixo vertical de todos os gráficos de resíduos versus x1 e x2 mostrados aqui deve ser rotulado como "Residual". Por alguma razão, o R Studio corta esse rótulo.
fonte
Sim, o que você está sugerindo é bom. É perfeitamente válido em um modelo tratar a resposta a um preditor como linear e a um diferente como polinomial. Também é completamente bom não assumir interações entre os preditores.
fonte
Você deve usar polinômios ortogonais para adicionar termos polinomiais.
Observar:
Entre 0 e 1,5, todas as três curvas aumentam monotonicamente e, embora se curvem de maneira diferente uma da outra, fornecerão ajustes de qualidade semelhantes quando x estiver correlacionado positivamente com y. Usando os três no seu código
você está essencialmente usando formas redundantes para ajustar seus dados.
Os polinômios ortogonais proporcionam, essencialmente, um espaço adicional de manobra ao encaixar, e cada polinômio é essencialmente independente dos outros.
Três polinômios de grau 1,2 e 3 gerados pela função poly () em R.
Talvez, em vez de explicitamente pensar neles como polinômios, você pense neles como 'componentes de tendência' ou algo assim:
Há muitas matemáticas difíceis envolvidas em polinômios ortogonais, mas felizmente você só precisa saber duas coisas:
fonte
poly
porque, se você tentarpredict
, ele recolocará os polinômios na amostra de previsão; ou seja, temos lixo.Não existe uma regra que diga que você deve usar todas as suas variáveis. Se você está tentando prever a renda e suas variáveis de recurso são SSN, anos de escolaridade e idade, e deseja abandonar o SSN porque espera que qualquer correlação entre ela e a renda seja espúria, esse é o seu julgamento. Um modelo não é inválido simplesmente porque existem outras variáveis que você teoricamente poderia ter incluído, mas não incluiu. Decidir quais termos polinomiais incluir é apenas uma das muitas decisões relacionadas à seleção de recursos.
Embora os modelos polinomiais geralmente iniciem com a inclusão de todos os termos, é apenas para que todos possam ser avaliados quanto ao quanto estão adicionando ao modelo. Se parece que um termo em particular é apenas sobre-ajustado, ele pode ser descartado em iterações posteriores do modelo. A regularização, como a regressão do laço, pode eliminar variáveis menos úteis automaticamente. Geralmente, é melhor começar com um modelo que tenha muitas variáveis e reduzi-lo às que são mais úteis do que começar apenas com as variáveis em que você acha que o modelo deve confiar e possivelmente perder um relacionamento em que você não estavam esperando.
fonte