A menos que eu esteja enganado, em um modelo linear, presume-se que a distribuição da resposta tenha um componente sistemático e um componente aleatório. O termo de erro captura o componente aleatório. Portanto, se assumirmos que o termo de erro é normalmente distribuído, isso não implica que a resposta também seja normalmente distribuída? Acho que sim, mas declarações como a abaixo parecem um pouco confusas:
E você pode ver claramente que a única hipótese de "normalidade" neste modelo é que os resíduos (ou "erros" ) devem ser distribuídos normalmente. Não há hipótese sobre a distribuição do preditor ou a variável de resposta .
Fonte: Preditores, respostas e resíduos: O que realmente precisa ser distribuído normalmente?
regression
assumptions
Ernest A
fonte
fonte
Respostas:
O modelo OLS padrão é com ε ~ N ( → 0 , σ 2 I n ) para um fixo X ∈ R n × p .Y=Xβ+ε ε ∼ N( 0⃗ , σ2Eun) X∈ Rn × p
Isso realmente significa que , embora isso seja uma consequência de nossa suposição sobre a distribuição de ε , em vez de realmente ser a suposição. Também tenha em mente que eu estou falando sobre a distribuição condicional de Y , não a distribuição marginal de Y . Estou focando na distribuição condicional porque acho que é sobre isso que você está realmente perguntando.Y| {X, β, σ2} ∼ N( Xβ, σ2Eun) ε Y Y
Eu acho que a parte que é confusa é que isso não significa que um histograma de pareça normal. Estamos a dizer que todo o vector Y é um único desenho de uma distribuição normal multivariada em que cada elemento tem um significativo potencial diferente de E ( Y i | X i ) = X t i β . Isso não é o mesmo que ser uma amostra normal de iid. Os erros ε são na verdade uma amostra de iid; portanto, um histograma deles pareceria normal (e é por isso que fazemos um gráfico de QQ dos resíduos, não a resposta).Y Y E( YEu| XEu) = XTEuβ ε
Aqui está um exemplo: suponha que estamos medindo a altura para uma amostra da 6ª e da 12ª séries. Nosso modelo é H i = β 0 + β 1 I ( 12º ano ) + ε i com ε i ∼ iid N ( 0 , σ 2 ) . Se olharmos para um histograma do H i , provavelmente veremos uma distribuição bimodal, com um pico para a 6ª série e um pico para a 12ª série, mas isso não representa uma violação de nossas suposições.H HEu= β0 0+ β1Eu( 12º ano ) + εEu εEu~ Iid N ( 0 , σ2) HEu
fonte
Nem remotamente. A maneira como me lembro disso é que os resíduos são condicionais normais na parte determinística do modelo . Aqui está uma demonstração de como isso se parece na prática.
Começo gerando aleatoriamente alguns dados. Depois, defino um resultado que é uma função linear dos preditores e estimo um modelo.
Vamos dar uma olhada em como esses resíduos se parecem. Suspeito que eles devam ser distribuídos normalmente, já que o resultado
y
adicionou um ruído normal. E, de fato, é esse o caso.Verificando a distribuição de y, no entanto, podemos ver que definitivamente não é normal! Sobrepus a função de densidade com a mesma média e variação de
y
, mas é obviamente um ajuste terrível!A razão pela qual isso aconteceu neste caso é que os dados de entrada nem são remotamente normais. Nada neste modelo de regressão requer normalidade, exceto nos resíduos - não na variável independente e não na variável dependente.
fonte
Não, não faz. Por exemplo, suponha que tenhamos um modelo que preveja o peso dos atletas olímpicos. Embora o peso possa normalmente ser distribuído entre os atletas de cada esporte, ele não estará entre todos os atletas - pode até não ser unimodal.
fonte