Entendendo a forma e o cálculo das faixas de confiança na regressão linear

33

Estou tentando entender a origem das bandas de confiança em forma de curva associadas a uma regressão linear OLS e como ela se relaciona com os intervalos de confiança dos parâmetros de regressão (inclinação e interceptação), por exemplo (usando R):

require(visreg)
fit <- lm(Ozone ~ Solar.R,data=airquality)
visreg(fit)

insira a descrição da imagem aqui

Parece que a banda está relacionada aos limites das linhas calculadas com a interceptação de 2,5% e a inclinação de 97,5%, bem como com a interceptação de 97,5% e a inclinação de 2,5% (embora não exatamente):

xnew <- seq(0,400)
int <- confint(fit)
lines(xnew, (int[1,2]+int[2,1]*xnew))
lines(xnew, (int[1,1]+int[2,2]*xnew))

insira a descrição da imagem aqui

O que eu não entendo são duas coisas:

  1. E a combinação de 2,5% de inclinação e 2,5% de interceptação, bem como 97,5% de inclinação e 97,5% de interceptação? Eles fornecem linhas claramente fora da banda plotada acima. Talvez eu não entenda o significado de um intervalo de confiança, mas se em 95% dos casos minhas estimativas estão dentro do intervalo de confiança, isso parece um resultado possível?
  2. O que determina a distância mínima entre o limite superior e o inferior (ou seja, próximo ao ponto em que as duas linhas adicionadas acima interceptam)?

Eu acho que ambas as questões surgem porque eu não sei / entendo como essas bandas são realmente calculadas.

Como posso calcular os limites superior e inferior usando os intervalos de confiança dos parâmetros de regressão (sem depender de predição () ou de uma função semelhante, ou seja, manualmente)? Tentei decifrar a função predict.lm em R, mas a codificação está além de mim. Eu apreciaria qualquer indicação de literatura relevante ou explicações adequadas para iniciantes em estatísticas.

Obrigado.

David
fonte
4
Você tem duas boas respostas abaixo. Se você quiser obter mais informações, pode ser útil ler minha resposta aqui: Intervalo de previsão de regressão linear , que pertence a intervalos de previsão, mas a ideia é muito semelhante.
gung - Restabelece Monica
2
Há uma explicação intuitiva detalhada dada neste post: Forma do intervalo de confiança para valores previstos em regressão linear
Glen_b -Reinstate Monica
AT pelas respostas úteis e pelos excelentes links.
David

Respostas:

19

O erro padrão da linha de regressão no ponto (ou seja, ) é calculado manualmente ( Yech! ) Usando:XsY^X

sY^X=sY|X1n+(XX¯)2i=1n(XiX¯)2 ,

onde o erro padrão da estimativa (ou seja, ) é calculado manualmente ( Double yech! ) usando:sY|X

sY|X=i=1n(YiY^)2n2 .

A faixa de confiança sobre a linha de regressão é obtida como .Y^±tν=n2,α/2sY^

Lembre-se de que a banda de confiança sobre a linha de regressão não é a mesma que a banda de previsão sobre a linha de regressão (há mais incerteza na previsão de dado um valor de que na estimativa da linha de regressão). E, como você está tentando entender, os intervalos de confiança sobre a interceptação e a inclinação são outras quantidades.YX

Além disso, você não entende os intervalos de confiança: "se em 95% dos casos minhas estimativas estão dentro do intervalo de confiança, isso parece um resultado possível?" Intervalos de confiança não 'contêm 95% das estimativas', em vez de cada amostra separada (produzida pelo mesmo desenho do estudo), 95% dos (calculados separadamente para cada amostra) intervalos de confiança de 95% conteriam o 'verdadeiro parâmetro populacional' (ou seja, a inclinação real, a interceptação verdadeira etc.) que e estão estimando.β^α^

Alexis
fonte
1
Existe um livro que explique de onde vêm essas fórmulas?
Michael Goerz
1
@ MichaelGoerz Qualquer livro introdutório de estatística, bioestatística, econometria, etc. que cubra a regressão linear de mínimos quadrados ordinários deve ter.
Alexis
Eu tenho Wasserman - Todas as Estatísticas, James et al - Uma Introdução à Aprendizagem Estatística, e Hastie et al. - Os elementos da aprendizagem estatística. Não consegui encontrar as equações para as faixas de confiança da regressão linear em nenhuma delas. Você tem um número de capítulo / eq para qualquer um desses, ou algum outro livro amplamente disponível?
Michael Goerz
2
Nenhum dos livros mencionados é do tipo que Alexis está discutindo. O livro de Fox sobre regressão aplicada o contém, se bem me lembro.
Glen_b -Reinstala Monica
1
@MichaelGoerz Assim como Pagano, M. e Gauvreau, K. (2000). Princípios de Bioestatística . Duxbury Press, Pacific Grove, CA, 2ª edição e Glantz, SA (2011). cartilha de bioestatística . McGraw-Hill Medical, Nova York, NY, 7ª edição, embora não sejam textos específicos de regressão.
Alexis
16

Boa pergunta. É importante entender esses conceitos e eles não são diretos.

As faixas de confiança de 95% que você vê ao redor da linha de regressão são geradas pelos intervalos de confiança de 95% de que o valor real de se enquadra nesse intervalo para cada x individual. Portanto, faça uma fatia vertical, digamos x = 50. A regressão nos diz que em x = 50 é aproximadamente 25. O cálculo do intervalo de confiança nos diz que estamos 95% confiantes de que o valor real de em esse ponto está dentro da área cinza do gráfico (portanto, aproximadamente 15 e 35 para o gráfico acima).ˉ y ˉ yy¯y¯y¯

Quando combinamos todos os intervalos de confiança, para cada x possível, isso nos dá as faixas cinzas que você vê na saída.

O que isso significa funcionalmente é que estamos 95% confiantes de que a verdadeira linha de regressão está em algum lugar nessa zona cinzenta.

Como as faixas de confiança são calculadas usando os intervalos de confiança de 95% para cada ponto individual, está muito relacionado ao IC de 95% para a interceptação. De fato, em x = 0, as bordas da zona cinza coincidirão exatamente com o IC de 95% para a interceptação, porque foi assim que geramos as faixas de confiança. É por isso que as linhas adicionadas acima atingem a borda da faixa cinza em direção à esquerda.

No entanto, a inclinação é um pouco diferente. Contribui para os limites, como você viu acima, mas a inclinação e a interceptação não são separáveis ​​em uma regressão linear. Então, você não pode realmente dizer "bem, e se a interceptação estivesse no mínimo no intervalo do IC e a inclinação também no mínimo?" Essa linha geraria pontos que estão bem fora dos nossos ICs de 95% para muitos x. Isso significa que estamos 95% confiantes de que essa não é a nossa verdadeira linha de regressão.

Para resolver sua segunda pergunta, os cálculos de regressão são mais precisos para os valores x no meio da nossa amostra. De fato, o IC 95% mais estreito será exibido em . Isso ocorre porque, como você pode ver na fórmula da resposta de Alexis, , está no numerador de uma fração. Quando esse valor é zero, o erro padrão é menor. s y x(x- ˉ x )x= ˉ xx¯sy^x(xx¯)x=x¯

Há um powerpoint decente aqui que pode ajudá-lo a visualizar algumas dessas coisas: http://www.stat.duke.edu/~tjl13/s101/slides/unit6lec3H.pdf

Duncan
fonte
2
Acho que consertei - substituí os yhats por ybars. Isso é mais correto? Eu sempre estrago tudo.
Duncan
Ta. Uma coisa que não está clara para mim é como tornar as duas afirmações a seguir consistentes: "O que isso significa funcionalmente é que estamos 95% confiantes de que a verdadeira linha de regressão está em algum lugar nessa zona cinzenta". vs "[...] os intervalos de confiança sobre a interceptação e a inclinação são ainda outras quantidades." Se a primeira afirmação estiver correta, deve haver alguma relação (matemática?) Entre os ICs de interceptação e inclinação e a banda plotada acima? Eu acho que isso está relacionado a uma parte da minha pergunta: Como posso calcular (se possível) a banda acima usando os ICs de inclinação e interceptação?
David David
1
Você não pode calcular as bandas usando apenas os ICs de slop e interceptar porque as bandas são geradas calculando os ICs em cada x. À medida que as bandas ficam mais apertadas, mais perto você chega a elas se desviarão das linhas geradas pelos valores extremos dos ICs para inclinação e interceptação. x¯
Duncan
Bom post compreensível e um bom link! +1
theforestecologist