Intervalos de confiança e previsão do modelo de regressão linear

9

Ok, estou tentando entender a regressão linear. Eu tenho um conjunto de dados e parece tudo bem, mas estou confuso. Este é o meu resumo-modelo linear:

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 0.2068621  0.0247002   8.375 4.13e-09 ***
temp        0.0031074  0.0004779   6.502 4.79e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874 
F-statistic: 42.28 on 1 and 28 DF,  p-value: 4.789e-07 

portanto, o valor p é realmente baixo, o que significa que é muito improvável que a correlação entre x, y seja por acaso. Se eu plotar e desenhar a linha de regressão, fica assim: http://s14.directupload.net/images/120923/l83eellv.png (Tinha como foto, mas eu sou - como um novo usuário - atualmente não sou permissão para publicá-lo) Linhas azuis = intervalo de confiança Linhas verdes = intervalo de previsão

Agora, muitos dos pontos não se enquadram no intervalo de confiança, por que isso aconteceria? Eu acho que nenhum dos pontos de dados cai na linha de regressão b / c, eles estão muito distantes um do outro, mas do que eu não tenho certeza: isso é um problema real? Eles ainda estão na linha de regressão e você pode ver totalmente um padrão. Mas isso é suficiente? Estou tentando descobrir, mas continuo me perguntando as mesmas perguntas repetidamente.

O que eu pensei até agora: O intervalo de confiança diz que, se você calcula ICs repetidamente, em 95% das vezes, a verdadeira média cai no IC. Portanto: não é um problema que o dp não caia nele, pois esses não são realmente os meios. O intervalo de previsão, por outro lado, diz que, se você calcula PIs repetidas vezes, em 95% das vezes, o verdadeiro VALUE cai no intervalo. Portanto, é muito importante ter os pontos nele (o que eu tenho). Então eu li que o PI sempre tem que ter uma faixa maior que o IC. Por que é que? Isto é o que eu fiz:

conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))

e então eu plotei isso por:

matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")

Agora, se eu calcular o IC e o PI para dados adicionais, não importa o tamanho da escolha do intervalo, obtenho exatamente as mesmas linhas acima. Eu não entendo. O que isso significa? Isso seria então:

conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))

para o novo x, escolhi sequências diferentes. Se a sequência tiver um número de observações diferente das variáveis ​​da minha regressão, estou recebendo um aviso. Por que isso seria?

lisa
fonte

Respostas:

3

Entendo algumas de suas perguntas, mas outras não são claras. Deixe-me responder e expor alguns fatos e talvez isso esclareça toda a sua confusão.

O ajuste que você tem é notavelmente bom. Os intervalos de confiança devem ser muito apertados. Existem dois tipos de regiões de confiança que podem ser consideradas: A região bsimultanoues, que visa cobrir toda a verdadeira função de regressão com o nível de confiança fornecido.

Os outros que você está vendo são os intervalos de confiança para os pontos de regressão ajustados. Eles destinam-se apenas a cobrir o valor ajustado de y no (s) valor (es) fornecido (s) da (s) covariável (s). Eles não pretendem cobrir valores y em outros valores das covariáveis. De fato, se os intervalos forem muito apertados, como deveriam ser no seu caso, eles não cobrirão muitos se algum dos pontos de dados, à medida que você se afasta do (s) valor (es) fixo (s) da (s) covariável (s). Para esse tipo de cobertura, é necessário obter as curvas de confiança simultâneas (curvas de limite superior e inferior).

Agora, é verdade que, se você prevê ay em um determinado valor de uma covariável e deseja o mesmo nível de confiança para o intervalo de previsão usado para o intervalo de confiança para y no valor especificado da covariável, o intervalo será maior. O motivo é que o modelo informa que haverá variabilidade adicional porque um novo y terá seu próprio erro independente que deve ser contabilizado no intervalo. Esse componente de erro não entra nas estimativas com base nos dados usados ​​no ajuste.

Michael R. Chernick
fonte
Me desculpe, ainda não entendi direito. Você explicou dois tipos de intervalo de confiança, mas quais você quer dizer quando diz "os que estou vendo"? b / c Plotamos a previsão e o intervalo de confiança e tenho problemas para entender a diferença. Além disso, adicionei alguns comandos R ao meu post anterior para esclarecer o que tenho feito #
lisa
As curvas não deixam claro se as faixas de confiança são obtidas através da construção de curvas de confiança simultâneas ou simplesmente fazem uma conexão suave dos intervalos de confiança individuais. Se fossem simultâneos, você não veria tantos pontos ajustados fora da curva. Mas, como apontei, isso poderia acontecer com os intervalos individuais. Ainda não examinei a edição que inclui o código R.
Michael R. Chernick 23/09/12
Não conheço R o suficiente para responder a perguntas específicas de R. O que não sei que um especialista em R pode lhe dizer é se as curvas de confiança e de previsão estão conectando os intervalos de confiança individuais ou estão gerando as curvas simultâneas. Seu código também faz o que você pretende fazer?
Michael R. Chernick 23/09/12