ANOVA: teste de suposição de normalidade para muitos grupos com poucas amostras por grupo

12

Suponha a seguinte situação:

temos um número grande (por exemplo, 20) com tamanho de grupo pequeno (por exemplo, n = 3). Percebi que, se eu gerar valores a partir da distribuição uniforme, os resíduos parecerão aproximadamente normais, mesmo que a distribuição de erros seja uniforme. O seguinte código R demonstra esse comportamento:

n.group = 200
n.per.group = 3

x <- runif(n.group * n.per.group)
gr <- as.factor(rep(1:n.group, each = n.per.group))
means <- tapply(x, gr, mean)
x.res <- x - means[gr]
hist(x.res)

Se eu olhar o resíduo de uma amostra em um grupo de três, a razão do comportamento é clara:

r1=x1mean(x1,x2,x3)=x1x1+x2+x33=23x1x2x3.

insira a descrição da imagem aqui

Como é uma soma de variáveis ​​aleatórias com um desvio padrão não muito diferente, sua distribuição é um pouco mais próxima da distribuição normal do que os termos individuais.r1

Agora suponha que eu tenha a mesma situação com dados reais em vez de dados simulados. Quero avaliar se as suposições da ANOVA em relação à normalidade se mantêm. Os procedimentos mais recomendados recomendam a inspeção visual dos resíduos (por exemplo, QQ-Plot) ou um teste de normalidade nos resíduos. Como meu exemplo acima, isso não é realmente ideal para pequenos grupos.

Existe uma alternativa melhor quando tenho muitos grupos de tamanhos pequenos?

Erik
fonte
1
Por várias razões, parece que isso não é um problema. Primeiro, seus resíduos parecerão uniformes: observe um histograma para um grande número de grupos para ver isso. Segundo, a normalidade dos resíduos é de pouca importância para a maioria das análises; o que importa é a normalidade aproximada das distribuições de amostragem. Que aspecto especial do seu aplicativo faz com que você suponha que haja algum problema real?
whuber
1
a) meus resíduos não parecerão uniformes. Eu testei isso para vários grupos (não amostras por grupo) de 20 a 20000. Anexei um exemplo à pergunta; parece algo entre uniforme e normal, com uma tendência distinta ao normal. b) Eu sei que é sobre a normalidade aproximada da distribuição amostral. Esse é o ponto principal da questão, pois os resíduos parecerão normais, mas a distribuição da amostra não é. Portanto, não posso usar os resíduos para testar as propriedades da distribuição amostral.
Erik
2
Está correto. Mas você está realmente interessado na distribuição dos erros ou está interessado em executar a ANOVA? (Não estou tentando sugerir que a pergunta deva ser ignorada - é uma questão fascinante que você levantou - mas só estou me perguntando se você realmente precisa de uma resposta para prosseguir com a análise dos dados.)
whuber
3
Mas você pode usar as mesmas simulações para investigar a robustez da ANOVA no seu caso!
precisa saber é o seguinte
4
Um comentário um pouco tangencial, mas relevante: Em geral, o uso de um teste de normalidade (ou outra suposição de modelo) antes de fazer um teste de hipótese apresenta (pelo menos) três problemas: 1) Se você fizer isso, precisará contabilizar vários testes; 2) Rejeitar a hipótese alternativa, por exemplo, "não normal" não significa que você possa concluir a normalidade; 3) Os testes para suposições de modelo têm suas próprias suposições, então onde você para?
26815 Martha

Respostas:

1

a<ba+b2σ(a,b)σ<aσ>bSD<σn>100

Agora, em vez de jogar as mãos para cima em frustração, podemos aplicar a correção de número pequeno para nossos SDs em condições normais. (Ha! Existe uma solução para a nossa miséria.)

SD(n)μ(n)=2n1Γ(n2)Γ(n12)=114n732n219128n3+O(n4)E[μ]

n=3Γ(32)=π20.8862269255σ

Agora, no caso em que você apresenta, há várias outras coisas acontecendo também. Por acaso, a melhor medida de localização de uma distribuição uniforme não é a média. Embora a média da amostra e a mediana da amostra sejam estimadores imparciais do ponto médio, nenhuma é tão eficiente quanto a faixa intermediária da amostra, ou seja, a média aritmética da amostra máxima e da amostra mínima, que é o estimador imparcial de variação mínima UMVU estimador do ponto médio (e também a estimativa de máxima verossimilhança).

Agora, para a carne do assunto. Se você usar a média dos valores extremos, a variação da medida da localização será menor, desde que seus dados sejam realmente uniformes distribuídos. Pode ser normalmente distribuído porque uma única cauda de valor extremo pode muito bem ser normal. Com apenas 3 amostras, no entanto, o desvio padrão precisará de correção.

Carl
fonte