A suposição de erros normais implica que Y também é normal?

12

A menos que eu esteja enganado, em um modelo linear, presume-se que a distribuição da resposta tenha um componente sistemático e um componente aleatório. O termo de erro captura o componente aleatório. Portanto, se assumirmos que o termo de erro é normalmente distribuído, isso não implica que a resposta também seja normalmente distribuída? Acho que sim, mas declarações como a abaixo parecem um pouco confusas:

E você pode ver claramente que a única hipótese de "normalidade" neste modelo é que os resíduos (ou "erros" ϵi ) devem ser distribuídos normalmente. Não há hipótese sobre a distribuição do preditor xi ou a variável de resposta yi .

Fonte: Preditores, respostas e resíduos: O que realmente precisa ser distribuído normalmente?

Ernest A
fonte
7
Se os são não estocásticos, a normalidade de ϵ implica a normalidade da variável dependente. Para variáveis ​​independentes estocásticas, isso não será válido em geral, pois depende da distribuição das variáveis ​​independentes. xϵ

Respostas:

19

O modelo OLS padrão é com ε ~ N ( 0 , σ 2 I n ) para um fixo X R n × p .Y=Xβ+εεN(0 0,σ2Eun) XRn×p

Isso realmente significa que , embora isso seja uma consequência de nossa suposição sobre a distribuição de ε , em vez de realmente ser a suposição. Também tenha em mente que eu estou falando sobre a distribuição condicional de Y , não a distribuição marginal de Y . Estou focando na distribuição condicional porque acho que é sobre isso que você está realmente perguntando.Y|{X,β,σ2}N(Xβ,σ2Eun)εYY

Eu acho que a parte que é confusa é que isso não significa que um histograma de pareça normal. Estamos a dizer que todo o vector Y é um único desenho de uma distribuição normal multivariada em que cada elemento tem um significativo potencial diferente de E ( Y i | X i ) = X t i β . Isso não é o mesmo que ser uma amostra normal de iid. Os erros ε são na verdade uma amostra de iid; portanto, um histograma deles pareceria normal (e é por isso que fazemos um gráfico de QQ dos resíduos, não a resposta).YYE(YEu|XEu)=XEuTβε

Aqui está um exemplo: suponha que estamos medindo a altura para uma amostra da 6ª e da 12ª séries. Nosso modelo é H i = β 0 + β 1 I ( 12º ano ) + ε i com ε iiid N ( 0 , σ 2 ) . Se olharmos para um histograma do H i , provavelmente veremos uma distribuição bimodal, com um pico para a 6ª série e um pico para a 12ª série, mas isso não representa uma violação de nossas suposições.HHEu=β0 0+β1Eu(12ª série)+εEuεEu iid N(0 0,σ2)HEu

jld
fonte
Alguém poderia esclarecer a notação ? σ2Eun
snoram
Isso significa que o matriz identidade multiplicado por um escalar σ 2 . n×nσ2
JLD
O vezes matriz de identidade alguma variação. n×n
Sycorax diz Restabelecer Monica
11

Portanto, se assumirmos que o termo de erro é normalmente distribuído, isso não implica que a resposta também seja normalmente distribuída?

Nem remotamente. A maneira como me lembro disso é que os resíduos são condicionais normais na parte determinística do modelo . Aqui está uma demonstração de como isso se parece na prática.

Começo gerando aleatoriamente alguns dados. Depois, defino um resultado que é uma função linear dos preditores e estimo um modelo.

N <- 100

x1 <- rbeta(N, shape1=2, shape2=10)
x2 <- rbeta(N, shape1=10, shape2=2)

x <- c(x1,x2)
plot(density(x, from=0, to=1))

y <- 1+10*x+rnorm(2*N, sd=1)

model<-lm(y~x)

Vamos dar uma olhada em como esses resíduos se parecem. Suspeito que eles devam ser distribuídos normalmente, já que o resultado yadicionou um ruído normal. E, de fato, é esse o caso.

insira a descrição da imagem aqui

plot(density(model$residuals), main="Model residuals", lwd=2)
s <- seq(-5,20, len=1000)
lines(s, dnorm(s), col="red")

plot(density(y), main="KDE of y", lwd=2)
lines(s, dnorm(s, mean=mean(y), sd=sd(y)), col="red")

Verificando a distribuição de y, no entanto, podemos ver que definitivamente não é normal! Sobrepus a função de densidade com a mesma média e variação de y, mas é obviamente um ajuste terrível!

Densidade de y

A razão pela qual isso aconteceu neste caso é que os dados de entrada nem são remotamente normais. Nada neste modelo de regressão requer normalidade, exceto nos resíduos - não na variável independente e não na variável dependente.

Denisty of x

Sycorax diz restabelecer Monica
fonte
8

Não, não faz. Por exemplo, suponha que tenhamos um modelo que preveja o peso dos atletas olímpicos. Embora o peso possa normalmente ser distribuído entre os atletas de cada esporte, ele não estará entre todos os atletas - pode até não ser unimodal.

Peter Flom - Restabelece Monica
fonte