Percebi que o intervalo de confiança para os valores previstos em uma regressão linear tende a ser estreito em torno da média do preditor e a gordura em torno dos valores mínimo e máximo do preditor. Isso pode ser visto nas parcelas dessas 4 regressões lineares:
Inicialmente, pensei que isso acontecia porque a maioria dos valores dos preditores estava concentrada em torno da média do preditor. No entanto, notei que o meio estreito do intervalo de confiança ocorreria mesmo que muitos valores de estivessem concentrados em torno dos extremos do preditor, como na regressão linear inferior esquerda, na qual muitos valores do preditor estão concentrados em torno do mínimo de o preditor.
alguém pode explicar por que os intervalos de confiança para os valores previstos em uma regressão linear tendem a ser estreitos no meio e a gordura nos extremos?
A resposta aceita traz de fato a intuição necessária. Falta apenas a visualização da combinação de incertezas lineares e angulares, o que remete muito bem aos gráficos da questão. Então aqui vai. Vamos chamar
a'
eb'
as incertezasa
eb
quantidades, respectivamente, retornadas por qualquer pacote de estatísticas popular. Além do melhor ajustea*x + b
, temos quatro linhas possíveis para desenhar (neste caso, de 1 covariável x):(a+a')*x + b+b'
(a-a')*x + b-b'
(a+a')*x + b-b'
(a-a')*x + b+b'
Estas são as quatro linhas coletadas no gráfico abaixo. A linha preta grossa no meio representa o melhor ajuste sem incertezas. Então, para desenhar os sombreamentos "hiperbólicos", deve-se tomar os valores máximo e mínimo dessas quatro linhas combinadas, que são de fato quatro segmentos de linha, sem curvas (eu me pergunto com que precisão essas plotagens fency desenham a curva, não parece qualquer precisão para mim).
Espero que isso adicione algo à resposta já agradável de @Glen_b.
fonte