Heterocedasticidade e normalidade de resíduos

12

Eu tenho uma regressão linear que é muito boa, eu acho (é para um projeto universitário, então eu realmente não preciso ser super preciso).

A questão é que, se eu traçar os resíduos versus os valores previstos, há (de acordo com meu professor) uma dica de heterocedasticidade.

Mas se eu traçar o QQ-Plot dos resíduos, fica claro que eles são normalmente distribuídos. Além disso, o teste de Shapiro nos resíduos tem um valor- de , então acho que não há dúvida de que os resíduos são realmente distribuídos normalmente.p0.8

Pergunta: Como pode haver heterocedasticidade nos valores previstos, se os resíduos são normalmente distribuídos?

Formiga
fonte
1
Uma adição muito curta à excelente resposta do @whubers: Você pode usar a ncvTestfunção do pacote veicular para Rrealizar um teste formal de heterocedasticidade. No exemplo do whuber, o comando ncvTest(fit)gera um valor- p quase zero e fornece fortes evidências contra a variação constante do erro (o que era esperado, é claro).
COOLSerdash

Respostas:

16

Uma maneira de abordar essa questão é analisá-la ao contrário: como poderíamos começar com resíduos normalmente distribuídos e organizá-los para serem heterocedásticos? Desse ponto de vista, a resposta se torna óbvia: associe os resíduos menores aos menores valores previstos.

Para ilustrar, aqui está uma construção explícita.

Figura

Os dados à esquerda são claramente heterocedásticos em relação ao ajuste linear (mostrado em vermelho). Isso é levado para casa pelos resíduos versus a previsão do gráfico à direita. Mas - por construção - o conjunto não ordenado de resíduos está quase distribuído normalmente, como mostra o histograma no meio. (O valor p no teste de normalidade Shapiro-Wilk é 0,60, obtido com o Rcomando shapiro.test(residuals(fit))emitido após a execução do código abaixo.)

Dados reais também podem se parecer com isso. A moral é que a heterocedasticidade caracteriza uma relação entre tamanho residual e previsões, enquanto a normalidade não nos diz nada sobre como os resíduos se relacionam com qualquer outra coisa.


Aqui está o Rcódigo para esta construção.

set.seed(17)
n <- 256
x <- (1:n)/n                       # The set of x values
e <- rnorm(n, sd=1)                # A set of *normally distributed* values
i <- order(runif(n, max=dnorm(e))) # Put the larger ones towards the end on average
y <- 1 + 5 * x + e[rev(i)]         # Generate some y values plus "error" `e`.
fit <- lm(y ~ x)                   # Regress `y` against `x`.
par(mfrow=c(1,3))                  # Set up the plots ...
plot(x,y, main="Data", cex=0.8)
abline(coef(fit), col="Red")
hist(residuals(fit), main="Residuals")
plot(predict(fit), residuals(fit), cex=0.8, main="Residuals vs. Predicted")
whuber
fonte
2
ok, então você está dizendo que, se eu associar resíduos baixos a valores previstos altos, a heterocedasticidade pode surgir mesmo que os resíduos sejam normalmente distribuídos? Eu acho que entendi, embora eu realmente deva pensar mais sobre isso .. de qualquer forma, obrigado!
Ant
... ou baixos resíduos com baixos valores previstos (como no exemplo aqui), ou mesmo de maneiras mais complexas. Por exemplo, existe heterocedasticidade quando a magnitude média dos resíduos oscila com o valor previsto. (A maioria dos testes formais de heterocedasticidade não irá detectar isso, mas as parcelas de diagnóstico habituais irá mostrar claramente.)
whuber
0

Na regressão de mínimos quadrados ponderados (WLS), são os fatores aleatórios dos resíduos estimados que você pode querer ver serem normalmente distribuídos, embora muitas vezes não sejam muito importantes. Os resíduos estimados podem ser fatorados, conforme mostrado em um caso de regressão simples (um regressor e por meio da origem), na parte inferior da página 1, e na metade inferior das páginas 2 e 7 em https://www.researchgate.net/publication / 263036348_Properties_of_Weighted_Least_Squares_Regression_for_Cutoff_Sampling_in_Establishment_Surveys De qualquer forma, isso pode ajudar a mostrar onde a normalidade pode aparecer na imagem.

Jim Knaub
fonte
Bem-vindo ao site, @JimKnaub. Gostaríamos muito de ter você por perto para fornecer sua experiência em questões ocasionais. Por que não registrar sua conta? Você pode descobrir como na seção Minha conta da nossa Central de Ajuda . Como você é novo aqui, convém fazer um tour , que contém informações para novos usuários.
gung - Restabelece Monica
3
Estamos tentando construir um repositório permanente de informações estatísticas de alta qualidade na forma de perguntas e respostas. Assim, temos receio de respostas que dependem de links, devido ao linkrot. Você pode postar uma citação completa e um resumo das informações (por exemplo, figuras / explicações) a partir do link, para que as informações continuem sendo úteis, mesmo que o link fique inoperante?
gung - Restabelece Monica