Como alguém pode objetivamente (ler "algoritmicamente") selecionar um modelo apropriado para fazer uma regressão linear de mínimos quadrados simples com duas variáveis?
Por exemplo, digamos que os dados pareçam mostrar uma tendência quadrática e é gerada uma parábola que se ajusta muito bem aos dados. Como justificamos fazer dessa regressão? Ou como eliminamos a possibilidade de existir um modelo melhor?
O que realmente me preocupa é o seguinte: poderíamos continuar adicionando termos polinomiais até termos um ajuste perfeito para o conjunto de dados (uma interpolação dos pontos), sem nenhum erro. Mas isso seria inútil em termos de previsão ou extrapolação, porque não haveria razão para pensar que o "modelo" fosse realmente apropriado. Então, como equilibrar as necessidades de precisão e apelo intuitivo?
(Além disso, me avise se isso já tiver sido solicitado anteriormente, presumi que teria sido, mas não encontrei nada.)
fonte
Respostas:
Você pode consultar o AIC, o BIC ou qualquer outra medida semelhante.
Você pode usar os olhos e a percepção do campo.
Ou você pode evitar alguns dos problemas usando splines.
fonte
É provável que você não consiga encontrar um polinômio que constitua uma descrição correta do relacionamento, independentemente da quantidade de dados que você possui.
Esse problema pode se estender a quase qualquer classe de modelos.
No entanto, geralmente estamos interessados em obter uma boa descrição que seja suficiente para algum propósito (um modelo), em vez de descobrir o processo real (possivelmente complicado demais) que conduz as observações.
De fato, mesmo onde o processo verdadeiro é de alguma classe hipotética de modelos potenciais, pode ser contraproducente descobrir o modelo verdadeiro (que pode ser de alta ordem, por exemplo, mas os termos de alta ordem podem ser muito pequenos). Pode ser que um modelo mais simples (ou seja, errado ) seja muito melhor para nossos propósitos.
Por exemplo, imagine que estávamos tentando prever os próximos valores em uma série um tanto barulhenta. Qualquer modelo que ajustamos apresenta algum erro nas estimativas de parâmetro e esse erro será ampliado pela previsão. Não é preciso muito para ter um modelo de ordem baixa (que é necessariamente tendencioso) com desempenho muito melhor do erro de previsão quadrada média (por exemplo) do que a ordem do modelo "verdadeiro".
Uma ferramenta comum para avaliar o desempenho do modelo é na previsão fora da amostra (não necessariamente ao longo do tempo). A validação cruzada é uma maneira comum de escolher modelos ou comparar seu desempenho.
Rob Hyndman escreveu uma pequena introdução agradável aqui .
fonte
Eu diria que muitas vezes as pessoas se alinham a uma das três abordagens diferentes:
A análise freqüentista é provavelmente a mais direta e a mais criticada por suas deficiências. A teoria da informação, por outro lado, sofreu um boom recentemente, chamando a atenção de mais e mais pessoas com o passar do tempo. Eu acho que você deve tentar entender um pouco e tirar algumas idéias de cada uma das três abordagens. Se você não tem idéia do que os dados devem conter, a abordagem freqüentista é uma boa maneira de começar; por outro lado, se você tiver alguma informação sobre o modelo subjacente, dê uma olhada na inferência bayesiana. E eu sempre manteria baixo o número de parâmetros livres, e é isso que AIC e BIC tentam equilibrar informações com parâmetros.
fonte
Eu usaria splines cúbicos restritos que permitem aproximar melhor a curva. Como um refinamento adicional, você pode usar o AICc (ou BIC) para escolher o número de nós.
fonte