O erro padrão da intercepção termo ( β 0 ) em Y = β 1 x + β 0 + ε é dado por S E ( β 0 ) 2 = σ 2 [ 1
Pelo que eu entendo, o SE quantifica o seu uncertainty- por exemplo, em 95% das amostras, o intervalo irá conter o verdadeiro β 0 . Não entendo como a SE, uma medida de incerteza, aumenta com ˉ x . Se eu simplesmente mudar meus dados, para que = x = 0 , minha incerteza diminua ? Isso parece irracional.
Uma interpretação é análoga - na versão descentrada das minhas corresponde a minha previsão em x = 0 , enquanto que nos dados centrados, p 0 corresponde a minha previsão em x = ˉ x . Então, isso significa que minha incerteza sobre minha previsão em x = 0 é maior do que minha incerteza sobre minha previsão em x = ˉ x ? Isso também parece irracional, o erro ϵ tem a mesma variação para todos os valores de x, então minha incerteza em meus valores previstos deve ser a mesma para todos os .
Existem lacunas no meu entendimento, tenho certeza. Alguém poderia me ajudar a entender o que está acontecendo?
fonte
Respostas:
Porque o ajuste linha de regressão por mínimos quadrados ordinários necessariamente passar pela média de seus dados (ou seja, ) -pelo menos enquanto você não suprimem a intercepção-incerteza sobre o verdadeiro valor do inclinação não tem qualquer efeito sobre a posição vertical da linha na parte média de x (ou seja, em y ˉ x ). Isso se traduz em incerteza menos vertical em ˉ x do que você tem o mais longe ˉ x você é. Se a interceptação, onde x = 0 é ˉ x(x¯,y¯) x y^x¯ x¯ x¯ x=0 x¯ , isso minimizará sua incerteza sobre o verdadeiro valor de . Em termos matemáticos, isto se traduz no menor valor possível do erro padrão para β 0 . β0 β^0
Aqui está um exemplo rápido em
R
:Esta figura é um pouco ocupada, mas você pode ver os dados de vários estudos diferentes em que a distribuição de estava mais próxima ou mais distante de 0 . As encostas diferem um pouco de estudo para estudo, mas são bastante similares. (Aviso todos eles vão através do X circulado que eu usei para marca ( ˉ x , ˉ y ) .) No entanto, a incerteza sobre o verdadeiro valor desses encostas faz com que a incerteza sobre y para expandir a mais se afasta de ˉ x , o que significa que o S E ( β 0 )x 0 (x¯,y¯) y^ x¯ SE(β^0) muito grande para os dados que foram amostrados na vizinhança de e muito estreito para o estudo em que os dados foram amostrados perto de x = 0 . x=10 x=0
Editar em resposta ao comentário: Infelizmente, centrando seus dados depois de tê-los não vai ajudar se você quiser saber a provável valor em algum x valor x nova . Em vez disso, você precisa centralizar sua coleta de dados no ponto que mais lhe interessa. Para entender melhor esses problemas, pode ser útil ler minha resposta aqui: Intervalo de previsão de regressão linear .y x xnew
fonte