Suposição de homocedasticidade na regressão linear versus conceito de resíduos estudados

Tendo lido sobre resíduos estudantis, não entendo como a ideia de diferentes variações residuais depende de certos valores de um preditor $X$ (como está implícito no conceito de resíduos estudantilizados) não é inerentemente conflitante com a suposição de homoscedasticidade em modelos de regressão linear com uma única variável preditora.

Diz no meu livro que a suposição de homoscedasticidade significa que a variação de $Y$ (variável dependente) condicional em $X = x$ (uma certa realização da variável preditora independente) é constante no intervalo de valores desse preditor. Essa variação condicional, diz, também é igual à variação condicional da variável residual $\varepsilon$ para um dado $x$ . Para mim, isso é uma afirmação no nível da população. Juntos, isso seria:

$Var(Y|X) = Var(\varepsilon|X) = \sigma^2_\varepsilon$

Posteriormente, o livro trata da detecção de outliers na variável dependente e sugere o uso de resíduos padronizados e estudados. Um resíduo padronizado é um resíduo individual $\varepsilon_i$ dividido pelo desvio padrão estimado $\hat\sigma_\varepsilon$ da variável residual na população. No caso do resíduo padronizado, cada resíduo $\varepsilon_i$ é padronizado usando o mesmo valor constante $\hat\sigma_\varepsilon$ se a homoscedasticidade puder ser assumida:

$Stand.Res_i = \frac{\varepsilon_i}{\hat\sigma_\varepsilon}$ .

No entanto, no próximo parágrafo, o resíduo estudantilizado é introduzido. O livro diz: "Pode ser demonstrado que a precisão da estimativa dos resíduos aumenta com a distância de $x_i$ da sua média $\bar x$ . No caso do resíduo estudantilizado, os resíduos não são divididos pelo erro padrão estimado global, mas pelo desvio padrão estimado dos resíduos no local $x_i$ . Este desvio padrão pode ser obtido a partir desta fórmula:

$Student.Res_i = \frac{\varepsilon_i }{\hat\sigma_\varepsilon \cdot \sqrt {1-h_i}}$

com $h_i$ sendo a pontuação de alavancagem de um (neste caso simples: singular) $x_i$ . Portanto, parece-me que, nesse caso, os resíduos não são todos divididos pelo mesmo valor constante (como no caso do residual padronizado), mas agora existe uma distribuição de erros padrão residuais que dependem dos valores de alavancagem. Esses valores de alavancagem são maiores nos extremos da variável preditora, conforme explicado em outras perguntas neste site. Na Wikipedia ( https://en.wikipedia.org/wiki/Errors_and_residuals#Regressions ), diz:

Na análise de regressão, a distinção entre erros e resíduos é sutil e importante, e leva ao conceito de resíduos estudados. Dada uma função não observável que relaciona a variável independente à variável dependente - digamos, uma linha - os desvios das observações da variável dependente dessa função são os erros não observáveis. Se alguém executa uma regressão em alguns dados, os desvios das observações da variável dependente da função ajustada são os resíduos. [...] No entanto, devido ao comportamento do processo de regressão, as distribuições de resíduos em diferentes pontos de dados (da variável de entrada) podem variar mesmo que os próprios erros sejam distribuídos de forma idêntica. Concretamente, em uma regressão linear em que os erros são distribuídos de forma idêntica, a variabilidade dos resíduos das entradas no meio do domínio será maior que a variabilidade dos resíduos nas extremidades do domínio [citação necessário]: regressões lineares ajustam os pontos de extremidade melhor que o meio. Isso também se reflete nas funções de influência de vários pontos de dados nos coeficientes de regressão: os pontos de extremidade têm mais influência.

Embora isso faça sentido para mim intuitivamente, não entendo bem como isso não contradiz a suposição de homoscedasticidade. Isso ocorre porque no nível da população a variação do erro pode ser igual para todos os níveis de $X$ mas quando estimamos essa variação de erro ajustando uma linha de regressão (para que possamos usar os resíduos como estimativas dos erros no nível da população), criamos automaticamente e artificialmente uma distribuição de desvios padrão residuais condicionais em $X$ em vez de ter esse desvio padrão residual igual ao valor singular de cada resíduo? Então isso significaria que o resíduo padronizado é realmente realmente útil no nível populacional (não observável), certo? Porque para uma determinada amostra o residual padronizado pode impossivelmente ser um estimador preciso para todos os valores $x_i$ que estão longe de $\bar x$ simplesmente devido à maneira como o modelo de regressão é ajustado?

No entanto, se for esse o caso, não entendo a recomendação que li em muitos lugares para testar a homocedasticidade, plotando os resíduos estudados contra a variável preditora e testando se a variação dos resíduos será igual em todos os níveis de $X$ . Se em uma linha de regressão ajustada, a variação dos resíduos pode ser diferente para diferentes níveis de $X$ (como eu acho que o conceito de resíduo estudantilizado e que trecho da Wikipedia implica) como faz sentido que todo mundo recomende testar a igualdade de variações residuais entre $X$ usando os gráficos de dispersão de resíduos estudantis em relação ao nível do preditor $X$ ? Alguém pode apontar quais erros estou cometendo aqui?

Misturo valores residuais e de erro ou níveis de população e amostra? Eu tenho procurado em todos os lugares e não consegui encontrar uma resposta satisfatória que discutisse por que não se trata de um conflito (ou pelo menos nenhum que eu entendesse). Muito obrigado antecipadamente!

regression residuals heteroscedasticity error dgks
fonte

Eu realmente não entendo sua confusão, mas deixe-me tentar. Considere uma regressão linear

y = X β + ε

$y=X\beta+\varepsilon$ com erros

ε

$\varepsilon$ e resíduos

e := y - X \hat{β} = (I - H) y

$e:=y-X\hat\beta=(I-H)y$ Onde

I

$I$ é uma matriz de identidade e

H := X (X^{⊤} X)^{- 1} X^{⊤}

$H:=X(X^\top X)^{-1}X^\top$ é a matriz do chapéu. Suponha que o modelo linear seja especificado corretamente e que todas as suposições, incluindo a homocedasticidade incondicional e condicional dos erros, sejam atendidas.

Enquanto $\varepsilon$ são homocedásticos pela suposição que acabei de apresentar, o modelo residual $e$ são condicionalmente heterocedásticos em relação ao nível de $X$ : sua variação pode ser mostrada como $\text{Var}(e)=\sigma^2_\varepsilon(I-H)$ . Este é um artefato de estimativa de OLS em um modelo linear.

Agora, suponha que você não saiba se todas as suposições foram atendidas (que é a perspectiva realista) e gostaria de verificá-las. Você talvez se sinta tentado a usar os resíduos $e$ no lugar dos erros não observados $\varepsilon$ modelar diagnósticos, por exemplo, avaliar a suposição de homocedasticidade condicional de $\varepsilon$ . Infelizmente, um condicionalmente homosquástico $\varepsilon$ se traduz em uma condicionalmente heterocedástica $e$ conforme evidenciado pela fórmula de variância acima. Portanto, você não pode aprender muito sobre a homocedasticidade condicional de $\varepsilon$ inspecionando a variabilidade em $e$ vs. $X$ .

Mas existe um remédio. Você pode ajustar a distorção da variação em $e$ "desfazendo" a escala devido à multiplicação por $(I-H)$ no $e$ . Isso resulta em resíduos estudados (interna ou externamente) $\tilde{e}_{int}:=\frac{e}{\hat\sigma_{int}\sqrt{1-h_{ii}}}$ ou $\tilde{e}_{ext}:=\frac{e}{\hat\sigma_{ext}\sqrt{1-h_{ii}}}$ Onde $\hat\sigma_{int}$ e $\hat\sigma_{ext}$ são estimativas internas e externas da variação de erro, respectivamente. A estudianização de resíduos permite colocar os resíduos de volta no mesmo nível de variação condicional que os erros de modelo não observados $\varepsilon$ são, até um fator de escala uniforme nos pontos de dados e, portanto, não afeta a homo- ou heterocedasticidade condicional.

É por isso que faz sentido usar resíduos estudados $\tilde{e}$ no lugar de resíduos brutos $e$ ao avaliar a heterocedasticidade condicional dos erros do modelo $\varepsilon$ wrt para o regressor $X$ .

Richard Hardy
fonte

Suposição de homocedasticidade na regressão linear versus conceito de resíduos estudados

Respostas: