Forma do intervalo de confiança para valores previstos em regressão linear

69

Percebi que o intervalo de confiança para os valores previstos em uma regressão linear tende a ser estreito em torno da média do preditor e a gordura em torno dos valores mínimo e máximo do preditor. Isso pode ser visto nas parcelas dessas 4 regressões lineares:

insira a descrição da imagem aqui

Inicialmente, pensei que isso acontecia porque a maioria dos valores dos preditores estava concentrada em torno da média do preditor. No entanto, notei que o meio estreito do intervalo de confiança ocorreria mesmo que muitos valores de estivessem concentrados em torno dos extremos do preditor, como na regressão linear inferior esquerda, na qual muitos valores do preditor estão concentrados em torno do mínimo de o preditor.

alguém pode explicar por que os intervalos de confiança para os valores previstos em uma regressão linear tendem a ser estreitos no meio e a gordura nos extremos?

luciano
fonte

Respostas:

86

Vou discutir isso em termos intuitivos.

Os intervalos de confiança e os intervalos de predição na regressão levam em consideração o fato de que a interceptação e a inclinação são incertas - você estima os valores dos dados, mas os valores da população podem ser diferentes (se você tirou uma nova amostra, obteria uma estimativa diferente valores).

(x¯,y¯)y=a+b(xx¯)a^=y¯

(x¯,y¯)

±

insira a descrição da imagem aqui

x¯,y¯

insira a descrição da imagem aqui

(x¯,y¯)x

insira a descrição da imagem aqui

±

x¯

Essa é a intuição.


Agora, se você quiser, podemos considerar um pouco de álgebra (mas não é essencial):

Na verdade, é a raiz quadrada da soma dos quadrados desses dois efeitos - você pode vê-la na fórmula do intervalo de confiança. Vamos construir as peças:

abσ/nayxx¯

baσ/i=1n(xix¯)2xxx¯(xx¯)σ/i=1n(xix¯)2

y=a+b(xx¯)ab

(σ/n)2+[(xx¯)σ/i=1n(xix¯)2]2

x

σ1n+(xx¯)2i=1n(xix¯)2

xx¯

[Com intervalos de previsão, há também a variação de posição devido à variabilidade do processo; isso adiciona outro termo que muda os limites para cima e para baixo, fazendo uma propagação muito mais ampla e, como esse termo geralmente domina a soma sob a raiz quadrada, a curvatura é muito menos pronunciada.]

Glen_b
fonte
Obrigado Glen_b, que é muito intuitivo. Não me passou pela cabeça que esse é o intervalo de confiança.
luciano
1

A resposta aceita traz de fato a intuição necessária. Falta apenas a visualização da combinação de incertezas lineares e angulares, o que remete muito bem aos gráficos da questão. Então aqui vai. Vamos chamar a'e b'as incertezas ae bquantidades, respectivamente, retornadas por qualquer pacote de estatísticas popular. Além do melhor ajuste a*x + b, temos quatro linhas possíveis para desenhar (neste caso, de 1 covariável x):

  • (a+a')*x + b+b'
  • (a-a')*x + b-b'
  • (a+a')*x + b-b'
  • (a-a')*x + b+b'

Estas são as quatro linhas coletadas no gráfico abaixo. A linha preta grossa no meio representa o melhor ajuste sem incertezas. Então, para desenhar os sombreamentos "hiperbólicos", deve-se tomar os valores máximo e mínimo dessas quatro linhas combinadas, que são de fato quatro segmentos de linha, sem curvas (eu me pergunto com que precisão essas plotagens fency desenham a curva, não parece qualquer precisão para mim).

Espero que isso adicione algo à resposta já agradável de @Glen_b.

insira a descrição da imagem aqui

ouranos
fonte