Regressão linear vs. não-linear

13

Eu tenho um conjunto de valores $x$ e $y$ que são teoricamente relacionados exponencialmente:

$y = ax^b$

Uma maneira de obter os coeficientes é aplicando logaritmos naturais em ambos os lados e ajustando um modelo linear:

> fit <- lm(log(y)~log(x))
> a <- exp(fit$coefficients[1])
> b <- fit$coefficients[2]

Outra maneira de obter isso é usar uma regressão não linear, dado um conjunto teórico de valores iniciais:

> fit <- nls(y~a*x^b, start=c(a=50, b=1.3))

Meus testes mostram resultados melhores e mais relacionados à teoria se eu aplicar o segundo algoritmo. No entanto, gostaria de saber o significado estatístico e as implicações de cada método.

Qual deles é melhor?

r regression linear-model model-selection nonlinear-regression Iñigo Hernáez Corres
fonte

3

Dê uma olhada neste post que trata de uma pergunta semelhante. Este documento também pode ser interessante.

COOLSerdash

5

"exponencial" geralmente implica algo baseado em exp(): o que você tem aqui é mais comumente chamado de função de poder, lei de poder ou lei de escala. Outros nomes existem sem dúvida. Não há conexão com o poder no sentido de testar hipóteses.

Nick Cox

16

"Melhor" é uma função do seu modelo.

Parte do motivo da sua confusão é que você escreveu apenas metade do seu modelo.

Quando você diz , isso não é verdade. Seus valores observados $y=ax^b$ $y$ não são iguais a ; eles têm um componente de erro. $ax^b$

Por exemplo, os dois modelos mencionados (e não os únicos possíveis por qualquer meio) fazem suposições completamente diferentes sobre o erro.

Você provavelmente quer dizer algo mais próximo de $E(Y|X=x) = ax^b\,$ .

Mas então o que dizemos sobre a variação de $Y$ em relação a essa expectativa em um dado ? Importa! $x$

Quando você ajusta o modelo de mínimos quadrados não linear, você está dizendo que os erros são aditivos e o desvio padrão dos erros é constante nos dados:

$\: y_i \sim N(ax_i^b,\sigma^2)$

ou equivalente

, com $\: y_i = ax_i^b + e_i$ $\text{var}(e_i) = \sigma^2$
Por outro lado, quando você pega logs e ajusta-se a um modelo linear, está dizendo que o erro é aditivo na escala de log e (na escala de log) constante nos dados. Isso significa que, na escala das observações, o termo de erro é multiplicativo e, portanto, os erros são maiores quando os valores esperados são maiores:

$\: y_i \sim \text{logN}(\log a+b\log x_i,\sigma^2)$

ou equivalente

, com $\: y_i = ax_i^b \cdot \eta_i$ $\eta_i \sim \text{logN}(0,\sigma^2)$

$\text{E}(\eta)$ $\sigma^2$

(Você pode fazer menos quadrados sem assumir distribuições de normalidade / lognormal, mas a questão central em discussão ainda se aplica ... e se você não estiver nem perto da normalidade, provavelmente deverá considerar um modelo de erro diferente)

Portanto, o que é melhor depende de que tipo de modelo de erro descreve suas circunstâncias.

$y$ $x$ $x$

Glen_b -Reinstate Monica
fonte

9

Quando você se encaixa em qualquer um dos modelos, está assumindo que o conjunto de resíduos (discrepâncias entre os valores observados e previstos de Y) segue uma distribuição gaussiana. Se essa suposição for verdadeira com seus dados brutos (regressão não linear), não será verdadeira para os valores transformados em log (regressão linear) e vice-versa.

Qual modelo é "melhor"? Aquele em que as suposições do modelo se aproximam mais dos dados.

Harvey Motulsky
fonte

Regressão linear vs. não-linear

Respostas: