Como alguém deve decidir entre usar um modelo de regressão linear ou modelo de regressão não linear?
Meu objetivo é prever Y.
No caso de um conjunto de dados e simples, eu poderia facilmente decidir qual modelo de regressão deveria ser usado plotando um gráfico de dispersão.
No caso de várias variantes, como e . Como posso decidir qual modelo de regressão deve ser usado? Ou seja, como vou decidir sobre usar um modelo linear simples ou modelos não lineares como quadriculado, cúbico etc.
Existe alguma técnica ou abordagem estatística ou gráficos para inferir e decidir qual modelo de regressão deve ser usado?
Respostas:
Esse é um campo de estatísticas chamado seleção de modelo. Muita pesquisa é feita nessa área e não há uma resposta definitiva e fácil.
Vamos supor que você tenha e e deseja saber se deve incluir um termo no modelo. Em uma situação como essa, seu modelo mais parcimonioso é aninhado em seu modelo mais complexo. Em outras palavras, as variáveis e (modelo parcimonioso) são um subconjunto das variáveis e X 2 3 (modelo complexo). Na construção de modelos, você tem (pelo menos) um dos dois objetivos principais a seguir:X1 1, X2 X3 X23 X1 1, X2 X3 X1 1, X2, X3 X23
Se seu objetivo for o número 1, recomendo o Teste da Razão de Verossimilhança (LRT). O LRT é usado quando você aninha modelos e deseja saber "os dados são significativamente mais prováveis do modelo complexo do que do modelo parcimonioso?". Isso lhe dará uma ideia de qual modelo explica melhor a relação entre seus dados.
fonte
Quando procuro no Google por "modelo linear ou não linear de regressão", recebo alguns links que levam a este livro: http://www.graphpad.com/manuals/prism4/RegressionBook.pdf Este livro não é interessante e não confie em 100% (por alguns motivos).
Encontrei também este artigo: http://hunch.net/?p=524 com o título: Quase todos os problemas naturais exigem não-linearidade
Também encontrei uma pergunta semelhante com uma explicação bastante boa: /programming/1148513/difference-between-a-linear-problem-and-a-nonnon-linear-problem-essence-of-dot-pro
Com base na minha experiência, quando você não souber qual modelo usar, use os dois e tente outros recursos.
fonte
Como você declara, os modelos lineares geralmente são mais simples que os não lineares, o que significa que são executados mais rapidamente (construção e previsão), são mais fáceis de interpretar e explicar e geralmente são mais diretos nas medições de erros. Portanto, o objetivo é descobrir se as suposições de uma regressão linear se mantêm com seus dados (se você não suportar linear, basta seguir não linear). Geralmente, você repetiria seu gráfico de variável única com todas as variáveis individualmente, mantendo todas as outras variáveis constantes.
Talvez o mais importante seja saber se você pode aplicar algum tipo de transformação, interação variável ou variável dummy para mover seus dados para o espaço linear. Se você é capaz de validar as suposições, ou se conhece seus dados o suficiente para aplicar transformações ou modificações bem motivadas ou informadas de maneira inteligente, então deseja prosseguir com essa transformação e usar a regressão linear. Depois de ter os resíduos, é possível plotá-los em relação aos valores previstos ou variáveis independentes para decidir ainda mais se você precisa passar para métodos não lineares.
Há uma excelente análise das premissas da regressão linear aqui em Duke . As quatro principais premissas são listadas e cada uma é dividida em efeitos no modelo, como diagnosticá-lo nos dados e possíveis maneiras de "consertar" (ou seja, transformar ou adicionar) os dados para manter a suposição. Aqui está um pequeno trecho do topo, resumindo as quatro suposições abordadas, mas você deve ir lá e ler os detalhes.
fonte