Suponha a seguinte situação:
temos um número grande (por exemplo, 20) com tamanho de grupo pequeno (por exemplo, n = 3). Percebi que, se eu gerar valores a partir da distribuição uniforme, os resíduos parecerão aproximadamente normais, mesmo que a distribuição de erros seja uniforme. O seguinte código R demonstra esse comportamento:
n.group = 200
n.per.group = 3
x <- runif(n.group * n.per.group)
gr <- as.factor(rep(1:n.group, each = n.per.group))
means <- tapply(x, gr, mean)
x.res <- x - means[gr]
hist(x.res)
Se eu olhar o resíduo de uma amostra em um grupo de três, a razão do comportamento é clara:
Como é uma soma de variáveis aleatórias com um desvio padrão não muito diferente, sua distribuição é um pouco mais próxima da distribuição normal do que os termos individuais.
Agora suponha que eu tenha a mesma situação com dados reais em vez de dados simulados. Quero avaliar se as suposições da ANOVA em relação à normalidade se mantêm. Os procedimentos mais recomendados recomendam a inspeção visual dos resíduos (por exemplo, QQ-Plot) ou um teste de normalidade nos resíduos. Como meu exemplo acima, isso não é realmente ideal para pequenos grupos.
Existe uma alternativa melhor quando tenho muitos grupos de tamanhos pequenos?
Respostas:
Agora, em vez de jogar as mãos para cima em frustração, podemos aplicar a correção de número pequeno para nossos SDs em condições normais. (Ha! Existe uma solução para a nossa miséria.)
Agora, no caso em que você apresenta, há várias outras coisas acontecendo também. Por acaso, a melhor medida de localização de uma distribuição uniforme não é a média. Embora a média da amostra e a mediana da amostra sejam estimadores imparciais do ponto médio, nenhuma é tão eficiente quanto a faixa intermediária da amostra, ou seja, a média aritmética da amostra máxima e da amostra mínima, que é o estimador imparcial de variação mínima UMVU estimador do ponto médio (e também a estimativa de máxima verossimilhança).
Agora, para a carne do assunto. Se você usar a média dos valores extremos, a variação da medida da localização será menor, desde que seus dados sejam realmente uniformes distribuídos. Pode ser normalmente distribuído porque uma única cauda de valor extremo pode muito bem ser normal. Com apenas 3 amostras, no entanto, o desvio padrão precisará de correção.
fonte