Estou tentando entender a origem das bandas de confiança em forma de curva associadas a uma regressão linear OLS e como ela se relaciona com os intervalos de confiança dos parâmetros de regressão (inclinação e interceptação), por exemplo (usando R):
require(visreg)
fit <- lm(Ozone ~ Solar.R,data=airquality)
visreg(fit)
Parece que a banda está relacionada aos limites das linhas calculadas com a interceptação de 2,5% e a inclinação de 97,5%, bem como com a interceptação de 97,5% e a inclinação de 2,5% (embora não exatamente):
xnew <- seq(0,400)
int <- confint(fit)
lines(xnew, (int[1,2]+int[2,1]*xnew))
lines(xnew, (int[1,1]+int[2,2]*xnew))
O que eu não entendo são duas coisas:
- E a combinação de 2,5% de inclinação e 2,5% de interceptação, bem como 97,5% de inclinação e 97,5% de interceptação? Eles fornecem linhas claramente fora da banda plotada acima. Talvez eu não entenda o significado de um intervalo de confiança, mas se em 95% dos casos minhas estimativas estão dentro do intervalo de confiança, isso parece um resultado possível?
- O que determina a distância mínima entre o limite superior e o inferior (ou seja, próximo ao ponto em que as duas linhas adicionadas acima interceptam)?
Eu acho que ambas as questões surgem porque eu não sei / entendo como essas bandas são realmente calculadas.
Como posso calcular os limites superior e inferior usando os intervalos de confiança dos parâmetros de regressão (sem depender de predição () ou de uma função semelhante, ou seja, manualmente)? Tentei decifrar a função predict.lm em R, mas a codificação está além de mim. Eu apreciaria qualquer indicação de literatura relevante ou explicações adequadas para iniciantes em estatísticas.
Obrigado.
Respostas:
O erro padrão da linha de regressão no ponto (ou seja, ) é calculado manualmente ( Yech! ) Usando:X sY^X
onde o erro padrão da estimativa (ou seja, ) é calculado manualmente ( Double yech! ) usando:sY|X
A faixa de confiança sobre a linha de regressão é obtida como .Y^±tν=n−2,α/2sY^
Lembre-se de que a banda de confiança sobre a linha de regressão não é a mesma que a banda de previsão sobre a linha de regressão (há mais incerteza na previsão de dado um valor de que na estimativa da linha de regressão). E, como você está tentando entender, os intervalos de confiança sobre a interceptação e a inclinação são outras quantidades.Y X
Além disso, você não entende os intervalos de confiança: "se em 95% dos casos minhas estimativas estão dentro do intervalo de confiança, isso parece um resultado possível?" Intervalos de confiança não 'contêm 95% das estimativas', em vez de cada amostra separada (produzida pelo mesmo desenho do estudo), 95% dos (calculados separadamente para cada amostra) intervalos de confiança de 95% conteriam o 'verdadeiro parâmetro populacional' (ou seja, a inclinação real, a interceptação verdadeira etc.) que e estão estimando.β^ α^
fonte
Boa pergunta. É importante entender esses conceitos e eles não são diretos.
As faixas de confiança de 95% que você vê ao redor da linha de regressão são geradas pelos intervalos de confiança de 95% de que o valor real de se enquadra nesse intervalo para cada x individual. Portanto, faça uma fatia vertical, digamos x = 50. A regressão nos diz que em x = 50 é aproximadamente 25. O cálculo do intervalo de confiança nos diz que estamos 95% confiantes de que o valor real de em esse ponto está dentro da área cinza do gráfico (portanto, aproximadamente 15 e 35 para o gráfico acima).ˉ y ˉ yy¯ y¯ y¯
Quando combinamos todos os intervalos de confiança, para cada x possível, isso nos dá as faixas cinzas que você vê na saída.
O que isso significa funcionalmente é que estamos 95% confiantes de que a verdadeira linha de regressão está em algum lugar nessa zona cinzenta.
Como as faixas de confiança são calculadas usando os intervalos de confiança de 95% para cada ponto individual, está muito relacionado ao IC de 95% para a interceptação. De fato, em x = 0, as bordas da zona cinza coincidirão exatamente com o IC de 95% para a interceptação, porque foi assim que geramos as faixas de confiança. É por isso que as linhas adicionadas acima atingem a borda da faixa cinza em direção à esquerda.
No entanto, a inclinação é um pouco diferente. Contribui para os limites, como você viu acima, mas a inclinação e a interceptação não são separáveis em uma regressão linear. Então, você não pode realmente dizer "bem, e se a interceptação estivesse no mínimo no intervalo do IC e a inclinação também no mínimo?" Essa linha geraria pontos que estão bem fora dos nossos ICs de 95% para muitos x. Isso significa que estamos 95% confiantes de que essa não é a nossa verdadeira linha de regressão.
Para resolver sua segunda pergunta, os cálculos de regressão são mais precisos para os valores x no meio da nossa amostra. De fato, o IC 95% mais estreito será exibido em . Isso ocorre porque, como você pode ver na fórmula da resposta de Alexis, , está no numerador de uma fração. Quando esse valor é zero, o erro padrão é menor. s y x(x- ˉ x )x= ˉ xx¯ sy^x (x−x¯) x=x¯
Há um powerpoint decente aqui que pode ajudá-lo a visualizar algumas dessas coisas: http://www.stat.duke.edu/~tjl13/s101/slides/unit6lec3H.pdf
fonte