Suposição de homocedasticidade na regressão linear versus conceito de resíduos estudados

7

Tendo lido sobre resíduos estudantis, não entendo como a ideia de diferentes variações residuais depende de certos valores de um preditor X (como está implícito no conceito de resíduos estudantilizados) não é inerentemente conflitante com a suposição de homoscedasticidade em modelos de regressão linear com uma única variável preditora.

Diz no meu livro que a suposição de homoscedasticidade significa que a variação de Y (variável dependente) condicional em X=x(uma certa realização da variável preditora independente) é constante no intervalo de valores desse preditor. Essa variação condicional, diz, também é igual à variação condicional da variável residualε para um dado x. Para mim, isso é uma afirmação no nível da população. Juntos, isso seria:

Var(Y|X)=Var(ε|X)=σε2

Posteriormente, o livro trata da detecção de outliers na variável dependente e sugere o uso de resíduos padronizados e estudados. Um resíduo padronizado é um resíduo individualεi dividido pelo desvio padrão estimado σ^εda variável residual na população. No caso do resíduo padronizado, cada resíduoεi é padronizado usando o mesmo valor constante σ^ε se a homoscedasticidade puder ser assumida:

Stand.Resi=εiσ^ε.

No entanto, no próximo parágrafo, o resíduo estudantilizado é introduzido. O livro diz: "Pode ser demonstrado que a precisão da estimativa dos resíduos aumenta com a distância dexi da sua média x¯. No caso do resíduo estudantilizado, os resíduos não são divididos pelo erro padrão estimado global, mas pelo desvio padrão estimado dos resíduos no localxi. Este desvio padrão pode ser obtido a partir desta fórmula:

Student.Resi=εiσ^ε1hi

com hi sendo a pontuação de alavancagem de um (neste caso simples: singular) xi. Portanto, parece-me que, nesse caso, os resíduos não são todos divididos pelo mesmo valor constante (como no caso do residual padronizado), mas agora existe uma distribuição de erros padrão residuais que dependem dos valores de alavancagem. Esses valores de alavancagem são maiores nos extremos da variável preditora, conforme explicado em outras perguntas neste site. Na Wikipedia ( https://en.wikipedia.org/wiki/Errors_and_residuals#Regressions ), diz:

Na análise de regressão, a distinção entre erros e resíduos é sutil e importante, e leva ao conceito de resíduos estudados. Dada uma função não observável que relaciona a variável independente à variável dependente - digamos, uma linha - os desvios das observações da variável dependente dessa função são os erros não observáveis. Se alguém executa uma regressão em alguns dados, os desvios das observações da variável dependente da função ajustada são os resíduos. [...] No entanto, devido ao comportamento do processo de regressão, as distribuições de resíduos em diferentes pontos de dados (da variável de entrada) podem variar mesmo que os próprios erros sejam distribuídos de forma idêntica. Concretamente, em uma regressão linear em que os erros são distribuídos de forma idêntica, a variabilidade dos resíduos das entradas no meio do domínio será maior que a variabilidade dos resíduos nas extremidades do domínio [citação necessário]: regressões lineares ajustam os pontos de extremidade melhor que o meio. Isso também se reflete nas funções de influência de vários pontos de dados nos coeficientes de regressão: os pontos de extremidade têm mais influência.

Embora isso faça sentido para mim intuitivamente, não entendo bem como isso não contradiz a suposição de homoscedasticidade. Isso ocorre porque no nível da população a variação do erro pode ser igual para todos os níveis deX mas quando estimamos essa variação de erro ajustando uma linha de regressão (para que possamos usar os resíduos como estimativas dos erros no nível da população), criamos automaticamente e artificialmente uma distribuição de desvios padrão residuais condicionais em Xem vez de ter esse desvio padrão residual igual ao valor singular de cada resíduo? Então isso significaria que o resíduo padronizado é realmente realmente útil no nível populacional (não observável), certo? Porque para uma determinada amostra o residual padronizado pode impossivelmente ser um estimador preciso para todos os valoresxi que estão longe de x¯ simplesmente devido à maneira como o modelo de regressão é ajustado?

No entanto, se for esse o caso, não entendo a recomendação que li em muitos lugares para testar a homocedasticidade, plotando os resíduos estudados contra a variável preditora e testando se a variação dos resíduos será igual em todos os níveis de X. Se em uma linha de regressão ajustada, a variação dos resíduos pode ser diferente para diferentes níveis deX (como eu acho que o conceito de resíduo estudantilizado e que trecho da Wikipedia implica) como faz sentido que todo mundo recomende testar a igualdade de variações residuais entre X usando os gráficos de dispersão de resíduos estudantis em relação ao nível do preditor X? Alguém pode apontar quais erros estou cometendo aqui?

Misturo valores residuais e de erro ou níveis de população e amostra? Eu tenho procurado em todos os lugares e não consegui encontrar uma resposta satisfatória que discutisse por que não se trata de um conflito (ou pelo menos nenhum que eu entendesse). Muito obrigado antecipadamente!

dgks
fonte

Respostas:

4

Eu realmente não entendo sua confusão, mas deixe-me tentar. Considere uma regressão linear

y=Xβ+ε
com erros ε e resíduos e:=yXβ^=(IH)y Onde I é uma matriz de identidade e H:=X(XX)1Xé a matriz do chapéu. Suponha que o modelo linear seja especificado corretamente e que todas as suposições, incluindo a homocedasticidade incondicional e condicional dos erros, sejam atendidas.

Enquanto ε são homocedásticos pela suposição que acabei de apresentar, o modelo residual e são condicionalmente heterocedásticos em relação ao nível de X: sua variação pode ser mostrada como Var(e)=σε2(IH). Este é um artefato de estimativa de OLS em um modelo linear.

Agora, suponha que você não saiba se todas as suposições foram atendidas (que é a perspectiva realista) e gostaria de verificá-las. Você talvez se sinta tentado a usar os resíduose no lugar dos erros não observados ε modelar diagnósticos, por exemplo, avaliar a suposição de homocedasticidade condicional de ε. Infelizmente, um condicionalmente homosquásticoε se traduz em uma condicionalmente heterocedástica econforme evidenciado pela fórmula de variância acima. Portanto, você não pode aprender muito sobre a homocedasticidade condicional deε inspecionando a variabilidade em e vs. X.

Mas existe um remédio. Você pode ajustar a distorção da variação eme "desfazendo" a escala devido à multiplicação por (IH) no e. Isso resulta em resíduos estudados (interna ou externamente)e~int:=eσ^int1hii ou e~ext:=eσ^ext1hii Onde σ^int e σ^extsão estimativas internas e externas da variação de erro, respectivamente. A estudianização de resíduos permite colocar os resíduos de volta no mesmo nível de variação condicional que os erros de modelo não observadosε são, até um fator de escala uniforme nos pontos de dados e, portanto, não afeta a homo- ou heterocedasticidade condicional.

É por isso que faz sentido usar resíduos estudados e~ no lugar de resíduos brutos e ao avaliar a heterocedasticidade condicional dos erros do modelo ε wrt para o regressor X.

Richard Hardy
fonte