Ok, estou tentando entender a regressão linear. Eu tenho um conjunto de dados e parece tudo bem, mas estou confuso. Este é o meu resumo-modelo linear:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.2068621 0.0247002 8.375 4.13e-09 ***
temp 0.0031074 0.0004779 6.502 4.79e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874
F-statistic: 42.28 on 1 and 28 DF, p-value: 4.789e-07
portanto, o valor p é realmente baixo, o que significa que é muito improvável que a correlação entre x, y seja por acaso. Se eu plotar e desenhar a linha de regressão, fica assim: http://s14.directupload.net/images/120923/l83eellv.png (Tinha como foto, mas eu sou - como um novo usuário - atualmente não sou permissão para publicá-lo) Linhas azuis = intervalo de confiança Linhas verdes = intervalo de previsão
Agora, muitos dos pontos não se enquadram no intervalo de confiança, por que isso aconteceria? Eu acho que nenhum dos pontos de dados cai na linha de regressão b / c, eles estão muito distantes um do outro, mas do que eu não tenho certeza: isso é um problema real? Eles ainda estão na linha de regressão e você pode ver totalmente um padrão. Mas isso é suficiente? Estou tentando descobrir, mas continuo me perguntando as mesmas perguntas repetidamente.
O que eu pensei até agora: O intervalo de confiança diz que, se você calcula ICs repetidamente, em 95% das vezes, a verdadeira média cai no IC. Portanto: não é um problema que o dp não caia nele, pois esses não são realmente os meios. O intervalo de previsão, por outro lado, diz que, se você calcula PIs repetidas vezes, em 95% das vezes, o verdadeiro VALUE cai no intervalo. Portanto, é muito importante ter os pontos nele (o que eu tenho). Então eu li que o PI sempre tem que ter uma faixa maior que o IC. Por que é que? Isto é o que eu fiz:
conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))
e então eu plotei isso por:
matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")
Agora, se eu calcular o IC e o PI para dados adicionais, não importa o tamanho da escolha do intervalo, obtenho exatamente as mesmas linhas acima. Eu não entendo. O que isso significa? Isso seria então:
conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))
para o novo x, escolhi sequências diferentes. Se a sequência tiver um número de observações diferente das variáveis da minha regressão, estou recebendo um aviso. Por que isso seria?
fonte