Quando (isto é, vem do modelo de regressão linear), e, nesse caso, resíduos são correlacionados e não independentes. Mas quando fazemos o diagnóstico de regressão e queremos testar a suposição , todo livro sugere sugerir o uso de gráficos Q-Q e testes estatísticos em resíduos que foram projetados para testar se para alguns .Y ε ∼ N ( 0 , σ 2 I )
Por que não importa para esses testes que os resíduos estejam correlacionados e não independentes? Geralmente, é sugerido o uso de resíduos padronizados: mas isso os torna apenas homoscedásticos, não independentes.
Para reformular a pergunta: os resíduos da regressão OLS estão correlacionados. Entendo que, na prática, essas correlações são tão pequenas (na maioria das vezes? Sempre?), Elas podem ser ignoradas ao testar se os resíduos vieram da distribuição normal. Minha pergunta é por que?
fonte
Respostas:
Na sua notação, é a projeção e o espaço da coluna de , ou seja, o subespaço estendido de todos os regressores. Portanto, é a projeção em tudo ortogonal ao subespaço estendido por todos os regressores.X H : = I n - HH X M: = In- H
Se , então é singularmente distribuído normal e os elementos são correlacionados, como você declara.X∈ Rn × k e^∈ Rn
Os erros não são observáveis e não são em geral ortogonal ao subespaço gerado por . Por uma questão de argumento, suponha que o erro . Se isso fosse verdade, teríamos com . Como , podemos decompor e obter o verdadeiro .X ε ⊥ extensão ( X ) y = X β + ε = ˜ y + ε ˜ y ⊥ ε ˜ y = X β ∈ extensão ( X ) y εε X ε ⊥ span( X) y= Xβ+ ε = y~+ ε y~⊥ ε y~= Xβ∈ span( X) y ε
Suponha que temos uma base de , onde o primeiro vetor base abrange o subespaço e os restantes span . Em geral, o erro terá componentes diferentes de zero para . Esses componentes diferentes de zero serão misturados ao e, portanto, não poderão ser recuperados pela projeção em .R n b 1 , … , b k span ( X ) b k + 1 , … , b n span ( X ) ⊥ ε = α 1 b 1 + … + α n b n α i i ∈ { 1 , ... , k } X βb1 1, … , Bn Rn b1 1, … , Bk período( X) bk + 1, … , Bn período( X)⊥ ε = α1 1b1 1+ … + Αnbn αEu eu ∈ { 1 , … , k } Xβ período( X)
Como nunca podemos esperar recuperar os erros verdadeiros e estão correlacionados no singular dimensional normal, poderíamos transformar . Lá podemos ter que isto é, é não-singular, não correlacionado e homoscedástico, distribuído normalmente. Os resíduos são chamados de resíduos BLUS de Theil .e n e ∈ R n ↦ e * ∈ R n - k e * ~ N N - k ( 0 , σ 2 I n - k ) , e * e *ε e^ n e^∈ Rn↦ e∗∈ Rn - k
No breve artigo Sobre os testes de distúrbios de regressão para normalidade, você encontra uma comparação dos resíduos de OLS e BLUS. Na configuração testada de Monte Carlo, os resíduos de OLS são superiores aos resíduos de BLUS. Mas isso deve lhe dar um ponto de partida.
fonte