ANOVA suposição normalidade / distribuição normal de resíduos

52

A página da Wikipedia na ANOVA lista três suposições , a saber:

  • Independência de casos - esta é uma suposição do modelo que simplifica a análise estatística.
  • Normalidade - as distribuições dos resíduos são normais.
  • Igualdade (ou "homogeneidade") de variações, chamada homoscedasticidade ...

O ponto de interesse aqui é a segunda suposição. Várias fontes listam a suposição de maneira diferente. Alguns dizem que a normalidade dos dados brutos, alguns alegam resíduos.

Surgem várias perguntas:

  • a normalidade e a distribuição normal de resíduos são a mesma pessoa (com base na entrada da Wikipedia, eu diria que a normalidade é uma propriedade e não pertence diretamente a resíduos (mas pode ser uma propriedade de resíduos (texto profundamente aninhado entre colchetes, esquisito)))?
  • se não, qual suposição deve ser mantida? 1? Ambos?
  • se a suposição de resíduos normalmente distribuídos é a correta, estamos cometendo um erro grave verificando apenas o histograma dos valores brutos quanto à normalidade?
Roman Luštrik
fonte
Você pode praticamente ignorar qualquer outra coisa que as fontes digam se afirmam que os dados brutos precisam ser normalmente distribuídos. E quem disse "nós" estávamos apenas checando os valores brutos com histogramas, de qualquer maneira. Você está em uma dessas aulas de Six Sigma ???
Dwin
11
@ Andy W: Acabei de adicionar um link para o que parece ser a seção relevante do artigo da Wikipedia sobre ANOVA.
onestop
@DWin: blog.markanthonylawson.com/?p=296 (desculpe, completamente fora de tópico, mas não resisti)
onestop
@ onestop obrigado. Só solicitei o link porque sou preguiçoso e não queria consultar a ANOVA na wikipedia, não porque é essencial para a pergunta.
Andy W
Pergunta relacionada aqui: e se os resíduos são normalmente distribuídos, mas você não é .
gung - Restabelece Monica

Respostas:

35

Vamos assumir que este é um modelo de efeitos fixos . (O conselho realmente não muda para modelos de efeitos aleatórios, apenas fica um pouco mais complicado.)

  1. Não, normalidade e distribuição normal de resíduos não são as mesmas . Suponha que você mediu o rendimento de uma colheita com e sem aplicação de fertilizante. Em parcelas sem fertilizante, o rendimento variou de 70 a 130. Em duas parcelas com fertilizante, o rendimento variou de 470 a 530. A distribuição dos resultados é fortemente não normal: está agrupada em dois locais relacionados à aplicação do fertilizante. Suponha ainda que os rendimentos médios sejam 100 e 500, respectivamente. Então todos os resíduos variam de -30 a +30. Eles podem (ou não) normalmente ser distribuídos, mas obviamente essa é uma distribuição completamente diferente.

  2. A distribuição dos resíduos é importante , porque eles refletem a parte aleatória do modelo. Observe também que os valores p são calculados a partir das estatísticas F (ou t) e que dependem de resíduos, não dos valores originais.

  3. Se houver efeitos significativos e importantes nos dados (como neste exemplo), você poderá estar cometendo um erro "grave" . Você poderia, por sorte, fazer a determinação correta: ou seja, olhando os dados brutos, você verá uma mistura de distribuições e isso pode parecer normal (ou não). O ponto é que o que você está procurando não é relevante.

Os resíduos da ANOVA não precisam estar nem perto do normal para se ajustar ao modelo. No entanto, a quase normalidade dos resíduos é essencial para que os valores de p calculados a partir da distribuição F sejam significativos.

whuber
fonte
6
Penso que há pontos importantes a acrescentar: em uma ANOVA, a normalidade dentro de cada grupo (não geral) é equivalente à normalidade dos resíduos.
Aniko
2
@Aniko Você poderia, por favor, elaborar o que você quer dizer com "equivalente" em seu comentário? É quase tautológico que a normalidade dentro de um grupo seja igual à normalidade dos resíduos desse grupo, mas é falso que a normalidade separadamente dentro de cada grupo implique (ou implique por) normalidade dos resíduos.
whuber
7
Eu realmente quis dizer o sentido tautológico: se os grupos são normais, os resíduos são normais. O inverso só é verdadeiro se a homoscedidade for adicionada (como na ANOVA). Não pretendo advogar a verificação dos grupos em vez dos resíduos, mas acho que essa é a razão subjacente à formulação variável das suposições.
Aniko
2
Notei que as pessoas que fazem uma ANOVA geralmente parecem interessadas em calcular os valores de p e, portanto, a normalidade dos resíduos é importante para eles. Existem razões comuns para ajustar um modelo ANOVA se não estivermos interessados ​​em calcular valores p a partir da distribuição F? Desculpas se esta pergunta for muito ampla para um comentário.
user1205901 - Restabelece Monica
3
@ user1205901 Esse é um ponto muito bom. Dois usos comuns da ANOVA que não dependem do teste F são: (1) é uma maneira conveniente de obter estimativas de efeito e (2) é parte integrante de um cálculo de componentes de variação.
whuber
8

A ANOVA unidirecional clássica padrão pode ser vista como uma extensão do "teste T de 2 amostras" clássico para um "teste T de n amostras". Isso pode ser observado ao comparar uma ANOVA unidirecional com apenas dois grupos ao teste T clássico de 2 amostras.

Eu acho que onde você está ficando confuso é que (sob as premissas do modelo) os resíduos e os dados brutos são AMBOS normalmente distribuídos. No entanto, os dados brutos consistem em distribuições normais com diferentes meios (a menos que todos os efeitos sejam exatamente os mesmos), mas com a mesma variação. Os resíduos, por outro lado, têm a mesma distribuição normal . Isso vem da terceira suposição de homoscedasticidade.

YEujμjσ2YEuj=μj+σϵEujϵEuj

ϵEuj

YEuj

probabilityislogic
fonte
11
+1 por apontar (no último parágrafo) a suposição de homoscedasticidade.
whuber
Isso significa que, se permitirmos que n grupos dependentes sejam comparados, precisamos verificar seus resíduos separadamente (resultando em n grupos de resíduos)?
stan
5

pnjF=SSb/dfbSSW/dfW

SSb=j=1 1pnj(M-Mj)2

SSW=j=1 1pEu=1 1nj(yEuj-Mj)2

FFSSb/dfbSSW/dfWχ2dfbdfWSSbSSW0 0M-MjyEuj-Mj

yEu(j)-MjY=μj+ϵ=μ+αj+ϵyEu(j)-MY=μ+ϵM-Mj

H0 0MyEu(j)-MjM-Mj

caracal
fonte
2
SSχ2Mj=MjyEuj-MjMj-M
@onestop Editado para refletir seu esclarecimento, obrigado!
caracal