Por que a correlação de resíduos não importa ao testar a normalidade?

Quando (isto é, vem do modelo de regressão linear), e, nesse caso, resíduos são correlacionados e não independentes. Mas quando fazemos o diagnóstico de regressão e queremos testar a suposição , todo livro sugere sugerir o uso de gráficos Q-Q e testes estatísticos em resíduos que foram projetados para testar se para alguns . $Y = AX + \varepsilon$ $Y$

ε \sim N (0, σ^{2} I) \Rightarrow \hat{e} = (I - H) Y \sim N (0, (I - H) σ_{}^{2})

$\varepsilon \sim \mathcal{N}(0, \sigma^2 I) \hspace{1em} \Rightarrow \hspace{1em} \hat{e} = (I - H) Y \sim \mathcal{N}(0, (I - H) \sigma^2_{})$

{\hat{e}}_{1}, \dots, {\hat{e}}_{n}

$\hat{e}_1, \ldots, \hat{e}_n$

ε \sim N (0, σ^{2} I)

$\varepsilon \sim \mathcal{N}(0, \sigma^2 I)$

\hat{e}

$\hat{e}$

\hat{e} \sim N (0, σ^{2} I)

$\hat{e} \sim \mathcal{N}(0, \sigma^2 I)$

σ^{2} \in R

$\sigma^2 \in \mathbb{R}$

Por que não importa para esses testes que os resíduos estejam correlacionados e não independentes? Geralmente, é sugerido o uso de resíduos padronizados: mas isso os torna apenas homoscedásticos, não independentes.

{\hat{e}}_{i}^{'} = \frac{{\hat{e}}_{i}}{\sqrt{1 - h_{i i}}},

$\hat{e}_i' = \frac{\hat{e}_i}{\sqrt{1 - h_{ii}}},$

Para reformular a pergunta: os resíduos da regressão OLS estão correlacionados. Entendo que, na prática, essas correlações são tão pequenas (na maioria das vezes? Sempre?), Elas podem ser ignoradas ao testar se os resíduos vieram da distribuição normal. Minha pergunta é por que?

regression residuals non-independent Zoran Loncarevic
fonte

Torna-os homoscedásticos.

Scortchi - Restabelece Monica

Você está perguntando sobre a aplicabilidade desses testes quando os resíduos têm fortes correlações ou apenas se preocupa com a correlação negativa (muito leve e inconseqüente) decorrente do procedimento de estimativa dos mínimos quadrados?

whuber

@whuber Estou perguntando sobre a correlação decorrente do procedimento de estimativa de mínimos quadrados. Se eles são leves e inconseqüentes, eu gostaria de saber o porquê.

Zoran Loncarevic

Respostas:

Na sua notação, é a projeção e o espaço da coluna de , ou seja, o subespaço estendido de todos os regressores. Portanto, é a projeção em tudo ortogonal ao subespaço estendido por todos os regressores. $H$ $X$ $M:=I_{n}-H$

Se , então é singularmente distribuído normal e os elementos são correlacionados, como você declara. $X\in\mathbb{R}^{n\times k}$ $\hat{e}\in\mathbb{R}^{n}$

Os erros não são observáveis e não são em geral ortogonal ao subespaço gerado por . Por uma questão de argumento, suponha que o erro . Se isso fosse verdade, teríamos com . Como , podemos decompor e obter o verdadeiro . $\varepsilon$ $X$ $\varepsilon\perp\operatorname{span}\left(X\right)$ $y=X\beta+\varepsilon=\tilde{y}+\varepsilon$ $\tilde{y}\perp\varepsilon$ $\tilde{y}=X\beta\in\operatorname{span}\left(X\right)$ $y$ $\varepsilon$

Suponha que temos uma base de , onde o primeiro vetor base abrange o subespaço e os restantes span . Em geral, o erro terá componentes diferentes de zero para . Esses componentes diferentes de zero serão misturados ao e, portanto, não poderão ser recuperados pela projeção em . $b_{1},\ldots,b_{n}$ $\mathbb{R}^{n}$ $b_{1},\ldots,b_{k}$ $\operatorname{span}\left(X\right)$ $b_{k+1},\ldots,b_{n}$ $\operatorname{span}\left(X\right)^{\perp}$ $\varepsilon=\alpha_{1}b_{1}+\ldots+\alpha_{n}b_{n}$ $\alpha_{i}$ $i\in\left\{1,\ldots,k\right\}$ $X\beta$ $\operatorname{span}\left(X\right)$

Como nunca podemos esperar recuperar os erros verdadeiros e estão correlacionados no singular dimensional normal, poderíamos transformar . Lá podemos ter que isto é, é não-singular, não correlacionado e homoscedástico, distribuído normalmente. Os resíduos são chamados de resíduos BLUS de Theil . $\varepsilon$ $\hat{e}$ $n$ $\hat{e}\in\mathbb{R}^{n}\mapsto e^{*}\in\mathbb{R}^{n-k}$

e^{*} \sim N_{n - k} (0, σ^{2} I_{n - k}),

$\begin{equation} e^{*}\sim\mathcal{N}_{n-k}\left(0,\sigma^{2}I_{n-k}\right) \textrm{,} \end{equation}$

e^{*}

$e^{*}$

e^{*}

$e^{*}$

No breve artigo Sobre os testes de distúrbios de regressão para normalidade, você encontra uma comparação dos resíduos de OLS e BLUS. Na configuração testada de Monte Carlo, os resíduos de OLS são superiores aos resíduos de BLUS. Mas isso deve lhe dar um ponto de partida.

Marco Breitig
fonte