E se os resíduos forem normalmente distribuídos, mas y não?

110

Eu tenho uma pergunta estranha. Suponha que você tenha uma pequena amostra em que a variável dependente que você analisará com um modelo linear simples é altamente inclinada para a esquerda. Assim, você assume que não é normalmente distribuído, porque isso resultaria em y distribuído normalmente . Mas quando você calcula o gráfico QQ-Normal, há evidências de que os resíduos são normalmente distribuídos. Assim, qualquer um pode assumir que o termo do erro é normalmente distribuído, embora y não seja. Então, o que significa quando o termo de erro parece ser normalmente distribuído, mas y não?uyyy

MarkDollar
fonte

Respostas:

143

yN(βx,σ2)β=1yxyxxxyxyx

Dikran Marsupial
fonte
9
(+1) Não acho que isso possa ser repetido com bastante frequência! Veja também o mesmo problema discutido aqui .
23411 Wolfgang
11
β=1yN(1x,σ2)E(y|x)xyN(value,σ2)yxy
4
p(y,x)E(y|x)yxyxx
Dikran Marsupial
2
yxyy
E(y|x)p(y,x)
100

YX

β0β1

BPsys=1601×daily drug dosage+εwhere εN(0,9)
X

insira a descrição da imagem aqui

Y

insira a descrição da imagem aqui

YY

YXp<.05β1

set.seed(123456789)                       # this make the simulation repeatable

b0 = 160;   b1 = -1;   b1_null = 0        # these are the true beta values
x  = rep(c(0, 20, 40), each=100)          # the (non-normal) drug dosages patients get

estimated.b1s  = vector(length=10000)     # these will store the simulation's results
estimated.b1ns = vector(length=10000)
null.p.values  = vector(length=10000)

for(i in 1:10000){
  residuals = rnorm(300, mean=0, sd=3)
  y.works = b0 + b1*x      + residuals
  y.null  = b0 + b1_null*x + residuals    # everything is identical except b1

  model.works = lm(y.works~x)
  model.null  = lm(y.null~x)
  estimated.b1s[i]  = coef(model.works)[2]
  estimated.b1ns[i] = coef(model.null)[2]
  null.p.values[i]  = summary(model.null)$coefficients[2,4]
}
mean(estimated.b1s)       # the sampling distributions are centered on the true values
[1] -1.000084                  
mean(estimated.b1ns)
[1] -8.43504e-05               
mean(null.p.values<.05)   # when the null is true, p<.05 5% of the time
[1] 0.0532                   

insira a descrição da imagem aqui

Esses resultados mostram que tudo funciona bem.

X YX

ung
fonte
11
Portanto, a suposição de que os resíduos são normalmente distribuídos é apenas para valores-p estarem corretos? Por que os valores p podem dar errado se o resíduo não é normal?
abacate
3
@ loganecolss, isso pode ser melhor como uma nova pergunta. De qualquer forma, sim , tem a ver com se os valores p estão corretos. Se seus resíduos são suficientemente não normais e seu N é baixo, a distribuição da amostra será diferente da teoria em que ela é. Como o valor-p é quanto dessa distribuição amostral está além da estatística de teste, o valor-p estará errado.
gung
0

XYX

Dovini Jayasinghe
fonte
3
A distribuição marginal da resposta não é "sem sentido"; é a distribuição marginal da resposta (e geralmente deve sugerir modelos diferentes da regressão simples com erros normais). Você está certo ao enfatizar que as distribuições condicionais são importantes uma vez que entretemos o modelo em questão, mas isso não adiciona utilidade às excelentes respostas existentes.
Nick Cox