Por que é importante fazer uma distinção entre regressão “linear” e “não linear”?

12

Qual a importância da distinção entre modelos lineares e não lineares? A questão Modelo linear não linear versus generalizado: Como você se refere à regressão logística, de Poisson etc.? e sua resposta foi um esclarecimento extremamente útil da linearidade / não linearidade dos modelos lineares generalizados. Parece criticamente importante distinguir modelos lineares e não lineares, mas não está claro para mim por que? Por exemplo, considere estes modelos de regressão:

\begin{aligned} (1) & E [Y ∣ X] & = β_{0} + β_{1} X \\ (2) & E [Y ∣ X] & = β_{0} + β_{1} X + β_{2} X^{2} \\ (3) & E [Y ∣ X] & = β_{0} + β_{1}^{2} X \\ (4) & E [Y ∣ X] & = {1 + \exp (- [β_{0} + β_{1} X]}^{- 1} \end{aligned}

$\begin{align} E[Y \mid X] & = \beta_0 + \beta_1 X \tag{1} \\ E[Y \mid X] & = \beta_0 + \beta_1 X + \beta_2 X^2 \tag{2} \\ E[Y \mid X] & = \beta_0 + \beta_1^2 X \tag{3} \\ E[Y \mid X] & = \{1+\exp(-[ \beta_0 + \beta_1 X]\}^{-1} \tag{4} \end{align}$

Os modelos 1 e 2 são lineares e as soluções para existem na forma fechada, facilmente encontradas usando um estimador OLS padrão. Não é o caso para os modelos 3 e 4, que não são lineares porque (algumas das) derivadas de $\beta$ wrt ainda são funções de . $E[Y\mid X]$ $\beta$ $\beta$

Uma solução simples para estimar no Modelo 3 é linearizar o modelo configurando , estimar usando um modelo linear e depois calcular $\beta_1$ $\gamma = \beta_1^2$ $\gamma$ . $\beta_1 = \sqrt{\gamma}$

Para estimar os parâmetros no Modelo 4, podemos assumir que segue uma distribuição binomial (membro da família exponencial) e, usando o fato de a forma logística do modelo ser o link canônico, linearizar os rhs do modelo. Essa foi a contribuição seminal de Nelder e Wedderburn . $Y$

Mas por que essa não linearidade é um problema em primeiro lugar? Por que não se pode simplesmente usar algum algoritmo iterativo para resolver o Modelo 3 sem linearizar usando a função de raiz quadrada, ou o Modelo 4 sem chamar GLMs. Suspeito que, antes do amplo poder computacional, os estatísticos tentassem linearizar tudo. Se for verdade, talvez os "problemas" introduzidos pela não linearidade sejam um remanescente do passado? As complicações introduzidas pelos modelos não lineares são meramente computacionais ou existem outras questões teóricas que tornam os modelos não lineares mais difíceis de serem ajustados aos dados do que os modelos lineares?

linear-model nonlinear-regression nonlinear user1849779
fonte

1

Se você deseja estimar

, basta estimar

( regressão linear simples ) e, em seguida, faça

E [Y | X] = β_{0} + β_{1}^{2} X

$E[Y|X] = \beta_0 + \beta_1^2 X$

E [Y | X] = β_{0} + γ X

$E[Y|X] = \beta_0 + \gamma X$

...

β_{1} = \sqrt{γ}

$\beta_1 = \sqrt{\gamma}$

Tim

@ Tim, obrigado pelo comentário. Eu estava ciente dessa transformação como uma possibilidade, mas estava tentando fazer uma pergunta um pouco diferente. Eu editei substancialmente a pergunta, espero que para melhor.

user1849779

5

Eu posso ver duas diferenças principais:

a linearidade o torna simples e robusto. Por exemplo, o OLS (linear) é um estimador imparcial sob distribuição de perturbações desconhecida. Em geral, GLM e modelos não lineares não são. O OLS também é robusto para vários modelos de estrutura de erros (efeitos aleatórios, clustering, etc.), onde em modelos não lineares você normalmente assume a distribuição exata desses termos.
Resolver é fácil: apenas algumas multiplicações de matrizes + 1 inversa. Isso significa que você quase sempre pode resolvê-lo, mesmo nos casos em que a função objetivo é quase plana (multicolinearidade.) Os métodos iterativos podem não convergir nesses casos problemáticos (o que, de certa forma, é uma coisa boa.) A solução fácil pode ou não hoje em dia não é menos problemático. Os computadores ficam mais rápidos, mas os dados aumentam. Já tentou executar uma regressão logit em observações 1G?

Além disso, os modelos lineares são mais fáceis de interpretar. Nos modelos lineares, os efeitos marginais são iguais aos coeficientes e são independentes dos valores de X (embora os termos polinomiais estragem essa simplicidade).

Ott Toomet
fonte

A distinção é principalmente de conveniência ou uso histórico.

28715 Martha

2

Muitos modelos em biologia (e outros campos) são não lineares, portanto, são mais adequados à regressão não linear. A matemática é muito diferente, é claro. Mas, do ponto de vista do analista de dados, há realmente apenas uma diferença importante.

A regressão não linear requer valores iniciais estimados para cada parâmetro. Se essas estimativas iniciais estiverem muito longe, o programa de regressão não linear pode convergir para um mínimo falso e fornecer resultados inúteis ou enganosos.

Harvey Motulsky
fonte

2

Isso certamente faz parte da resposta. Mas, ao afirmar que a única diferença é algo que é um tecnicismo menor, você pode estar minimizando demais os problemas de modelos não lineares. Por exemplo, alguns simples que surgem na biologia podem ter mínimos locais nitidamente diferentes, todos próximos aos mínimos globais. Essa questão qualitativa fundamental não é resolvida pelo aprimoramento do poder computacional ou pelas melhores técnicas de otimização: a própria natureza de muitos modelos não lineares é tão diferente dos modelos lineares que eles exigem uma profunda reflexão sobre seu significado e sua interpretação.

whuber

1

Em primeiro lugar, vou substituir a palavra "modelo" pela palavra "regressão". Penso que, para ambas as palavras, estamos realmente perguntando quais são as equações relevantes que definem o modelo e quais são as hipóteses relevantes que relacionam os valores da variável dependente e os valores previstos pela equação / modelo. Eu acho que o termo 'modelo' é mais padrão. Se você concorda com isso, continue a ler.

Devo realmente esta resposta às reflexões sobre o comentário de um colega que é probabilista e estatístico com formação clássica. Ele se opôs violentamente a um livro que considerava uma regressão polinomial não linear e foi então que li mais seriamente sobre modelos não lineares. Acredito que a resposta correta é que um modelo linear assume que o termo de erro é gaussiano, enquanto um modelo linear generalizado assume uma forma mais generalizada para o termo de erro. E se $\phi_1, \ldots, \phi_n$ qualquer conjunto de funções, pode-se tentar construir um modelo linear em $\phi_1, \ldots, \phi_n$ . Por exemplo, se $\phi_i = x^i$ , obtemos uma regressão polinomial. É um modelo linear se a diferença $\epsilon_i = y_i - \sum a_{ij}x^j$ é gaussiano. Acho que a Wikipedia tem uma explicação bastante razoável dos modelos lineares gerais. Penso que esta é a sentença-chave - "O GLM generaliza a regressão linear, permitindo que o modelo linear seja relacionado à variável de resposta por meio de uma função de link e permitindo que a magnitude da variação de cada medição seja uma função do seu valor previsto. " Portanto, um glm permite um termo de erro mais geral. Isso permite maior flexibilidade na modelagem. O preço ? Calcular o modelo correto é mais difícil. Já não se tem um método simples de calcular os coeficientes. Os coeficientes de uma regressão linear podem ser encontrados minimizando uma função quadrática que possui um mimo único. Nas palavras de Borat, para um glm, nem tanto. É preciso calcular a mle,

meh
fonte

1

Um modelo não linear também pode assumir que os resíduos são amostrados de uma distribuição gaussiana. Um exemplo simples é a atividade enzimática (Y) em função da concentração de substrato (X). Y = Vmáx * X / (Km + X) É comum e sensato assumir que os resíduos são gaussianos, mas essa é uma equação não linear que se ajusta à regressão não linear.

Harvey Motulsky

2

Os modelos não lineares compreendem muito mais do que GLMs. Os GLMs são populares porque são "quase" lineares nos parâmetros: toda a não linearidade é confinada a uma função de uma única variável, o "link". Isso permite soluções relativamente eficientes e confiáveis. Outros modelos não lineares são muito menos tratáveis. O conceito de linearidade é amplamente separado da natureza dos resíduos, embora em alguns casos seja benéfico distinguir resíduos aditivos de outras formas de variação.

whuber

Por que é importante fazer uma distinção entre regressão “linear” e “não linear”?

Respostas: