Decidindo entre um modelo de regressão linear ou um modelo de regressão não linear

10

Como alguém deve decidir entre usar um modelo de regressão linear ou modelo de regressão não linear?

Meu objetivo é prever Y.

No caso de um conjunto de dados e simples, eu poderia facilmente decidir qual modelo de regressão deveria ser usado plotando um gráfico de dispersão.xy

No caso de várias variantes, como e . Como posso decidir qual modelo de regressão deve ser usado? Ou seja, como vou decidir sobre usar um modelo linear simples ou modelos não lineares como quadriculado, cúbico etc.x1,x2,...xny

Existe alguma técnica ou abordagem estatística ou gráficos para inferir e decidir qual modelo de regressão deve ser usado?

shakthydoss
fonte
"Modelo não linear" é uma categoria bastante ampla. Você tinha um em mente? Quais são seus objetivos de análise?
shadowtalker
Isso depende de seus objetivos. Você está construindo um modelo de previsão / previsão?
Aksakal
Previsão é o meu objetivo.
Shakthydoss 6/02
11
Se você deseja algo como a abordagem "plotar os dados", mas para vários preditores, há gráficos de variáveis ​​adicionados que podem ter algum valor. Mas se seu objetivo é previsão, o problema é que você escolhe o que obter com base na visualização dos dados, para que fique muito melhor nos dados que você possui do que em outros dados (e existem vários outros problemas que acompanham esse tipo de dados). abordagem para seleção de modelo) - para avaliar adequadamente a capacidade preditiva fora da amostra, é necessário avaliar as coisas em uma amostra de validação / considerar algo como validação cruzada.
Glen_b -Reinstala Monica
11
Você pode achar útil uma discussão relacionada que iniciei há algum tempo.
Aleksandr Blekh

Respostas:

10

Esse é um campo de estatísticas chamado seleção de modelo. Muita pesquisa é feita nessa área e não há uma resposta definitiva e fácil.

Vamos supor que você tenha e e deseja saber se deve incluir um termo no modelo. Em uma situação como essa, seu modelo mais parcimonioso é aninhado em seu modelo mais complexo. Em outras palavras, as variáveis e (modelo parcimonioso) são um subconjunto das variáveis e X 2 3 (modelo complexo). Na construção de modelos, você tem (pelo menos) um dos dois objetivos principais a seguir:X1 1,X2X3X32X1 1,X2X3X1 1,X2,X3X32

  1. X1 1YX2,...Xp
  2. YY

Se seu objetivo for o número 1, recomendo o Teste da Razão de Verossimilhança (LRT). O LRT é usado quando você aninha modelos e deseja saber "os dados são significativamente mais prováveis ​​do modelo complexo do que do modelo parcimonioso?". Isso lhe dará uma ideia de qual modelo explica melhor a relação entre seus dados.

k

TrynnaDoStat
fonte
Por favor, você poderia fazer / explicar a diferença entre os objetivos (1) e (2) mais pronunciados? Atualmente não há muita diferença.
ttnphns
@ttnphns Adicionei uma breve descrição dos dois objetivos.
TrynnaDoStat
@TrynnaDoStat Apenas confuso aqui com a declaração Escolha o modelo que faz o melhor trabalho de previsão. Por melhor modelo, você pretende escolher entre o modelo linear (parcimonioso) e o modelo complexo ... certo? Como o que sei é dobra em k, o CV deixado de fora é usado para verificar o desempenho do modelo em dados invisíveis. Eles não são usados ​​para a seleção do modelo. Eu estou confuso aqui.
TushaR
1

Quando procuro no Google por "modelo linear ou não linear de regressão", recebo alguns links que levam a este livro: http://www.graphpad.com/manuals/prism4/RegressionBook.pdf Este livro não é interessante e não confie em 100% (por alguns motivos).

Encontrei também este artigo: http://hunch.net/?p=524 com o título: Quase todos os problemas naturais exigem não-linearidade

Também encontrei uma pergunta semelhante com uma explicação bastante boa: /programming/1148513/difference-between-a-linear-problem-and-a-nonnon-linear-problem-essence-of-dot-pro

Com base na minha experiência, quando você não souber qual modelo usar, use os dois e tente outros recursos.

404pio
fonte
0

Como você declara, os modelos lineares geralmente são mais simples que os não lineares, o que significa que são executados mais rapidamente (construção e previsão), são mais fáceis de interpretar e explicar e geralmente são mais diretos nas medições de erros. Portanto, o objetivo é descobrir se as suposições de uma regressão linear se mantêm com seus dados (se você não suportar linear, basta seguir não linear). Geralmente, você repetiria seu gráfico de variável única com todas as variáveis ​​individualmente, mantendo todas as outras variáveis ​​constantes.

Talvez o mais importante seja saber se você pode aplicar algum tipo de transformação, interação variável ou variável dummy para mover seus dados para o espaço linear. Se você é capaz de validar as suposições, ou se conhece seus dados o suficiente para aplicar transformações ou modificações bem motivadas ou informadas de maneira inteligente, então deseja prosseguir com essa transformação e usar a regressão linear. Depois de ter os resíduos, é possível plotá-los em relação aos valores previstos ou variáveis ​​independentes para decidir ainda mais se você precisa passar para métodos não lineares.

Há uma excelente análise das premissas da regressão linear aqui em Duke . As quatro principais premissas são listadas e cada uma é dividida em efeitos no modelo, como diagnosticá-lo nos dados e possíveis maneiras de "consertar" (ou seja, transformar ou adicionar) os dados para manter a suposição. Aqui está um pequeno trecho do topo, resumindo as quatro suposições abordadas, mas você deve ir lá e ler os detalhes.

Existem quatro premissas principais que justificam o uso de modelos de regressão linear para fins de inferência ou previsão:

(i) linearidade e aditividade da relação entre variáveis ​​dependentes e independentes:

(a) O valor esperado da variável dependente é uma função linear de cada variável independente, mantendo as outras fixas.

(b) A inclinação dessa linha não depende dos valores das outras variáveis.

(c) Os efeitos de diferentes variáveis ​​independentes no valor esperado da variável dependente são aditivos.

(ii) independência estatística dos erros (em particular, nenhuma correlação entre> erros consecutivos no caso de dados de séries temporais)

(iii) homoscedasticidade (variação constante) dos erros

a) versus tempo (no caso de dados de séries temporais)

(b) versus as previsões

(c) versus qualquer variável independente

(iv) normalidade da distribuição de erros.

wwwslinger
fonte