Como os resíduos se relacionam com os distúrbios subjacentes?

9

No método dos mínimos quadrados, queremos estimar os parâmetros desconhecidos no modelo:

Yj=α+βxj+εj(j=1 ...n)

Depois de fazer isso (para alguns valores observados), obtemos a linha de regressão ajustada:

Yj=α^+β^x+ej(j=1 1,...n)

Agora, obviamente, queremos verificar alguns gráficos para garantir que as suposições sejam cumpridas. Suponha que você queira verificar a homoscedasticidade; no entanto, para fazer isso, estamos realmente verificando os resíduos . Digamos que você examine o gráfico de valores residuais vs valores previstos, se isso nos mostra que a heterocedasticidade é aparente, então como isso se relaciona com o termo de perturbação ? A heterocedasticidade nos resíduos implica heterocedasticidade em termos de perturbação? ε jejεj

Danny
fonte

Respostas:

3

A maneira mais simples de pensar sobre isso é que seus resíduos crus ( ) são estimativas dos distúrbios correspondentes ( ε j = e j ). No entanto, existem algumas complexidades extras. Por exemplo, apesar de estarmos assumindo no modelo OLS padrão que os erros / perturbações são independentes, os resíduos não podem ser todos. Em geral, apenas os resíduos N - p - 1 podem ser independentes, pois você usou graus de liberdade p - 1 na estimativa do modelo médio e os resíduos são limitados a somar aej=yj-y^jε^j=ejNp1p1 . Além disso, o desvio padrão dos resíduos brutos não é realmente constante. Em geral, a linha de regressão é ajustada de forma que fique mais próxima, em média, dos pontos com maior alavancagem. Como resultado, o desvio padrão dos resíduos para esses pontos é menor que o dos pontos de baixa alavancagem. (Para mais informações, pode serútiller as respostas aqui:Interpretando plot.lm ()e / ou aqui:Como executar a análise residual de preditores independentes binários / dicotômicos em regressão linear?)0

- Reinstate Monica
fonte
3
Para esclarecer, no máximo os resíduos de Np-1 podem ser independentes, mas geralmente estão todos correlacionados; em vez disso, há transformações lineares delas que podem ter componentes independentes de Np-1.
Glen_b -Reinstate Monica
@ Glen_b, bom ponto.
gung - Restabelece Monica
8

A relação entre ε e ε é:ε^ε

ε^=(IH)ε

onde , a matriz de chapéu, é X ( X T X ) - 1 X t .HX(XTX)1XT

O que significa dizer que ε i é uma combinação linear de todos os erros, mas geralmente a maioria do peso recai sobre o i um -ésimo.ε^ii

Aqui está um exemplo, usando o carsconjunto de dados em R. Considere o ponto marcado em roxo:

insira a descrição da imagem aqui

Euε^Eu0,98εEu+jEuWjεjWj

insira a descrição da imagem aqui

Podemos reescrever isso como:

ε^Eu0,98εEu+ηEu

ou mais geralmente

ε^Eu=(1 1-hEuEu)εEu+ηEu

hEuEuEuHWjhEuj

N(0 0,σ2)Eu

Ou seja, em regressões bem comportadas, os resíduos podem ser tratados principalmente como uma estimativa moderadamente barulhenta de não observável o termo de erro. À medida que consideramos pontos mais distantes do centro, as coisas funcionam de maneira menos agradável (o resíduo se torna menos ponderado no erro e os pesos nos outros erros se tornam menos uniformes).

X

Glen_b -Reinstate Monica
fonte
2
HεEuH
nHn
np/np