Eu tenho um exemplo de conjunto de dados da seguinte maneira:
Volume <- seq(1,20,0.1)
var1 <- 100
x2 <- 1000000
x3 <- 30
x4 = sqrt(x2/pi)
H = x3 - Volume
r = (x4*H)/(H + Volume)
Power = (var1*x2)/(100*(pi*Volume/3)*(x4*x4 + x4*r + r*r))
Power <- jitter(Power, factor = 1, amount = 0.1)
plot(Volume,Power)
A partir da figura, pode-se sugerir que, entre um certo intervalo de 'Volume' e 'Potência', o relacionamento é linear; quando 'Volume' se torna relativamente pequeno, o relacionamento se torna não-linear. Existe um teste estatístico para ilustrar isso?
Com relação a algumas das recomendações mostradas nas respostas ao PO:
O exemplo mostrado aqui é simplesmente um exemplo, o conjunto de dados que eu tenho é semelhante ao relacionamento visto aqui, embora mais barulhento. A análise que conduzi até agora mostra que, quando analiso um volume de um líquido específico, a potência de um sinal aumenta drasticamente quando há um volume baixo. Então, digamos que eu só tivesse um ambiente em que o volume estivesse entre 15 e 20, quase pareceria uma relação linear. No entanto, aumentando o intervalo de pontos, ou seja, tendo volumes menores, vemos que o relacionamento não é linear. Agora estou procurando alguns conselhos estatísticos sobre como mostrar isso estatisticamente. Espero que isso faça sentido.
R
de código:plot(s <- by(cbind(Power, Volume), groups <- cut(Volume, 10), function(d) summary(lm(Power ~ Volume, data=d))$sigma), xlab="Volume range", ylab="Residual SD", ylim=c(0, max(s))); abline(h=mean(s), lty=2, col="Blue")
. Ele mostra um tamanho residual quase constante em toda a faixa.Respostas:
Isso é basicamente um problema de seleção de modelo. Encorajo-vos a selecionar um conjunto de modelos fisicamente plausíveis (linear, exponencial, talvez um relacionamento linear descontínuo) e usa o Critério de Informação de Akaike ou o Critério de Informação Bayesiano para selecionar o melhor - tendo em mente a questão da heterocedasticidade que o @whuber aponta.
fonte
Você já tentou pesquisar no Google !? Uma maneira de fazer isso é ajustar uma potência mais alta ou outros termos não lineares ao seu modelo e testar se os coeficientes deles são significativamente diferentes de 0.
Há alguns exemplos aqui http://www.albany.edu/~po467/EPI553/Fall_2006/regression_assumptions.pdf
No seu caso, convém dividir seu conjunto de dados em duas seções para testar a não linearidade do volume <5 e a linearidade do volume> 5.
O outro problema que você tem é que seus dados são heterocedásticos, o que viola a suposição de normalidade para dados de regressão. O link fornecido também fornece exemplos de testes para isso.
fonte
Sugiro o uso de regressão não linear para ajustar um modelo a todos os seus dados. Qual o sentido de escolher um volume arbitrário e ajustar um modelo a volumes inferiores a esse e outro modelo a volumes maiores? Existe alguma razão, além da aparência da figura, para usar 5 como um limite agudo? Você realmente acredita que após um determinado limite de volume, a curva ideal é linear? Não é mais provável que se aproxime da horizontal à medida que o volume aumenta, mas nunca é bastante linear?
Obviamente, a seleção da ferramenta de análise deve depender de quais perguntas científicas você está tentando responder e do seu conhecimento prévio do sistema.
fonte