Nas anotações de meu curso sobre um curso de regressão com relação à detecção de heterocedasticidade, há a seguinte citação:
"Como os resíduos dos mínimos quadrados apresentam variações desiguais mesmo no caso homoscedástico, é preferível usar os resíduos padronizados".
Minha intuição me diz que, como a linha de regressão LS necessariamente passa pelo centro da nuvem de dados, ela será mais adequada para pontos no meio do espaço covariável do que nas caudas, dando assim uma variação maior nos extremos.
Apesar disso, isso não parece necessário . E, ao mesmo tempo, me pergunto por que nos importamos com a homoscedasticidade em resíduos padronizados ou estudados e não nos resíduos brutos.
Respostas:
Assumindo o modelo linear usual com variação constanteσ2 . Usarei a notação (e alguns resultados) de Alavancas e efeito de pontos de alavancagem . O modelo linear em forma de matriz é
Y= Xβ+ ϵ Onde ϵ é um vetor de n termos de erro do iid. Então a matriz do chapéu éH= X(XTX)- 1XT , e seus termos diagonais são as alavancas heu eu . Podemos mostrar que a variância dos resíduoseEu=yEu-yEu^ é σ2( 1 -heu eu) (lembrar 0 <heu eu< 1 .)
Portanto, nesse modelo, para obter resíduos de variação constante, dividimos por1 -heu eu------√ : os resíduos padronizados definidos por rEu=yEu-y^Eu1 -heu eu√ tem variação constante. Portanto, para muitos usos na análise de resíduos, preferimos esses resíduos padronizados, por exemplo, na verificação da suposição de variação constante.
Em um comentário, o OP escreve:
Isso confunde erros com resíduos . Os erros são os não observadosϵEu na equação de regressão yEu=β0 0+∑EuβEuxEu+ϵEu , enquanto resíduos é a diferença observada entre a observação e a previsão do modelo. Homoskedastcity significa que todos os erros têm a mesma variação, não que os resíduos tenham variação constante. Se você deseja usar resíduos para testar / criticar a suposição de variação constante, é melhor usar uma versão dos resíduos que possuem variação constante (no modelo).
fonte
Suponha que você tenha trêsx -valores: - 1 , 0 , + 1.
As variáveis dependentes correspondentesY1 1,Y2,Y3 são onde está a aleatoriedade.
Agora desenhe a imagem. Você pode ver porque, se você se mudarY2 para cima ou para baixo, a linha ajustada se move para cima ou para baixo. (Apenas1 / 3 tanto quanto Y2 movimentos). Mas o que acontece se você se mover Y3 Para cima ou para baixo? A linha ajustada não se move apenas para cima ou para baixo; sua inclinação também aumenta ou diminui. Ou se você se mudarY1 1 para cima ou para baixo, então a inclinação fica menor ou maior, respectivamente. Portanto, a linha tem mais tendência a ficar perto do ponto de dados quando o ponto de dados éx -valor está longe da média x -valor do que quando está próximo da média x -valor. Portanto, os resíduos observados apresentam uma variação menor quando ox -valor está longe da média x -valor do que quando o x -valor está próximo da média x -valor.
Os valores ajustados são=(Yˆ1 1,Yˆ2,Yˆ3)(23Y1 1+1 13Y2,1 13(Y1 1+Y2+Y3) ,1 13Y2+23Y3) .
Então os resíduos são
=(Y1 1,Y2,Y3) - (Yˆ1 1,Yˆ2,Yˆ3)(1 13Y1 1-1 13Y2,-23Y1 1+23Y2-23Y3,-1 13Y2+1 13Y3) .
A partir disso, é possível calcular as variações dos resíduos.
fonte