A página da Wikipedia na ANOVA lista três suposições , a saber:
- Independência de casos - esta é uma suposição do modelo que simplifica a análise estatística.
- Normalidade - as distribuições dos resíduos são normais.
- Igualdade (ou "homogeneidade") de variações, chamada homoscedasticidade ...
O ponto de interesse aqui é a segunda suposição. Várias fontes listam a suposição de maneira diferente. Alguns dizem que a normalidade dos dados brutos, alguns alegam resíduos.
Surgem várias perguntas:
- a normalidade e a distribuição normal de resíduos são a mesma pessoa (com base na entrada da Wikipedia, eu diria que a normalidade é uma propriedade e não pertence diretamente a resíduos (mas pode ser uma propriedade de resíduos (texto profundamente aninhado entre colchetes, esquisito)))?
- se não, qual suposição deve ser mantida? 1? Ambos?
- se a suposição de resíduos normalmente distribuídos é a correta, estamos cometendo um erro grave verificando apenas o histograma dos valores brutos quanto à normalidade?
anova
residuals
assumptions
normality-assumption
Roman Luštrik
fonte
fonte
Respostas:
Vamos assumir que este é um modelo de efeitos fixos . (O conselho realmente não muda para modelos de efeitos aleatórios, apenas fica um pouco mais complicado.)
Não, normalidade e distribuição normal de resíduos não são as mesmas . Suponha que você mediu o rendimento de uma colheita com e sem aplicação de fertilizante. Em parcelas sem fertilizante, o rendimento variou de 70 a 130. Em duas parcelas com fertilizante, o rendimento variou de 470 a 530. A distribuição dos resultados é fortemente não normal: está agrupada em dois locais relacionados à aplicação do fertilizante. Suponha ainda que os rendimentos médios sejam 100 e 500, respectivamente. Então todos os resíduos variam de -30 a +30. Eles podem (ou não) normalmente ser distribuídos, mas obviamente essa é uma distribuição completamente diferente.
A distribuição dos resíduos é importante , porque eles refletem a parte aleatória do modelo. Observe também que os valores p são calculados a partir das estatísticas F (ou t) e que dependem de resíduos, não dos valores originais.
Se houver efeitos significativos e importantes nos dados (como neste exemplo), você poderá estar cometendo um erro "grave" . Você poderia, por sorte, fazer a determinação correta: ou seja, olhando os dados brutos, você verá uma mistura de distribuições e isso pode parecer normal (ou não). O ponto é que o que você está procurando não é relevante.
Os resíduos da ANOVA não precisam estar nem perto do normal para se ajustar ao modelo. No entanto, a quase normalidade dos resíduos é essencial para que os valores de p calculados a partir da distribuição F sejam significativos.
fonte
A ANOVA unidirecional clássica padrão pode ser vista como uma extensão do "teste T de 2 amostras" clássico para um "teste T de n amostras". Isso pode ser observado ao comparar uma ANOVA unidirecional com apenas dois grupos ao teste T clássico de 2 amostras.
Eu acho que onde você está ficando confuso é que (sob as premissas do modelo) os resíduos e os dados brutos são AMBOS normalmente distribuídos. No entanto, os dados brutos consistem em distribuições normais com diferentes meios (a menos que todos os efeitos sejam exatamente os mesmos), mas com a mesma variação. Os resíduos, por outro lado, têm a mesma distribuição normal . Isso vem da terceira suposição de homoscedasticidade.
fonte
fonte