teste estatístico para verificar se a relação é linear ou não linear

9

Eu tenho um exemplo de conjunto de dados da seguinte maneira:

Volume <- seq(1,20,0.1)
var1 <- 100 
x2 <- 1000000
x3 <- 30

x4 = sqrt(x2/pi)
H = x3 - Volume
r = (x4*H)/(H + Volume)

Power = (var1*x2)/(100*(pi*Volume/3)*(x4*x4 + x4*r + r*r))

Power <- jitter(Power, factor = 1, amount = 0.1)
plot(Volume,Power)

insira a descrição da imagem aqui

A partir da figura, pode-se sugerir que, entre um certo intervalo de 'Volume' e 'Potência', o relacionamento é linear; quando 'Volume' se torna relativamente pequeno, o relacionamento se torna não-linear. Existe um teste estatístico para ilustrar isso?

Com relação a algumas das recomendações mostradas nas respostas ao PO:

O exemplo mostrado aqui é simplesmente um exemplo, o conjunto de dados que eu tenho é semelhante ao relacionamento visto aqui, embora mais barulhento. A análise que conduzi até agora mostra que, quando analiso um volume de um líquido específico, a potência de um sinal aumenta drasticamente quando há um volume baixo. Então, digamos que eu só tivesse um ambiente em que o volume estivesse entre 15 e 20, quase pareceria uma relação linear. No entanto, aumentando o intervalo de pontos, ou seja, tendo volumes menores, vemos que o relacionamento não é linear. Agora estou procurando alguns conselhos estatísticos sobre como mostrar isso estatisticamente. Espero que isso faça sentido.

KatyB
fonte
5
Há várias coisas acontecendo aqui. Primeiro, é claro que um relacionamento parecerá linear, desde que os intervalos das variáveis ​​sejam adequadamente restritos. Segundo, a heterocedasticidade dos dados é uma característica quase tão proeminente quanto a relação não linear: a dispersão é maior em altos volumes e baixas potências do que em baixos volumes e altas potências. Independentemente disso, o que exatamente você deseja testar? A linearidade do relacionamento em toda a faixa?
whuber
4
Na verdade, eu gostaria de ter de volta a observação sobre heterocedasticidade: a trama dá a aparência de tal, mas é uma ilusão causada pelas encostas relativamente íngremes em volumes menores. (Porém, o volume em termos de poder tem uma relação extremamente heterocedástica.) Depois de determinarmos que a variação no poder não é heterocedástico, isso exclui alguns tipos de análises (não queremos aplicar transformações não-lineares do poder) e sugere favorecer outros (como mínimos quadrados não lineares ou um modelo linear generalizado), uma vez que a não linearidade esteja claramente estabelecida.
whuber
Adicionei uma breve descrição do problema em questão. Obrigado por seus comentários até agora, eles são muito apreciados e estão me ajudando a pensar sobre o problema.
precisa saber é
Por que não testar o efeito quadrático?
AdamO
2
@ Simon Não usei nenhum teste, mas, no entanto, você pode ver que isso é homoscedástico, plotando o tamanho típico de resíduos contra o volume. Aqui está um pouco Rde código: plot(s <- by(cbind(Power, Volume), groups <- cut(Volume, 10), function(d) summary(lm(Power ~ Volume, data=d))$sigma), xlab="Volume range", ylab="Residual SD", ylim=c(0, max(s))); abline(h=mean(s), lty=2, col="Blue"). Ele mostra um tamanho residual quase constante em toda a faixa.
whuber

Respostas:

4

Isso é basicamente um problema de seleção de modelo. Encorajo-vos a selecionar um conjunto de modelos fisicamente plausíveis (linear, exponencial, talvez um relacionamento linear descontínuo) e usa o Critério de Informação de Akaike ou o Critério de Informação Bayesiano para selecionar o melhor - tendo em mente a questão da heterocedasticidade que o @whuber aponta.

Drew Steen
fonte
2

Você já tentou pesquisar no Google !? Uma maneira de fazer isso é ajustar uma potência mais alta ou outros termos não lineares ao seu modelo e testar se os coeficientes deles são significativamente diferentes de 0.

Há alguns exemplos aqui http://www.albany.edu/~po467/EPI553/Fall_2006/regression_assumptions.pdf

No seu caso, convém dividir seu conjunto de dados em duas seções para testar a não linearidade do volume <5 e a linearidade do volume> 5.

O outro problema que você tem é que seus dados são heterocedásticos, o que viola a suposição de normalidade para dados de regressão. O link fornecido também fornece exemplos de testes para isso.

Simon Hayward
fonte
Link quebrado.
Jatin
2

Sugiro o uso de regressão não linear para ajustar um modelo a todos os seus dados. Qual o sentido de escolher um volume arbitrário e ajustar um modelo a volumes inferiores a esse e outro modelo a volumes maiores? Existe alguma razão, além da aparência da figura, para usar 5 como um limite agudo? Você realmente acredita que após um determinado limite de volume, a curva ideal é linear? Não é mais provável que se aproxime da horizontal à medida que o volume aumenta, mas nunca é bastante linear?

Obviamente, a seleção da ferramenta de análise deve depender de quais perguntas científicas você está tentando responder e do seu conhecimento prévio do sistema.

Harvey Motulsky
fonte