Há alguns meses, publiquei uma pergunta sobre testes de homoscedasticidade no R on SO, e Ian Fellows respondeu isso (vou parafrasear sua resposta muito livremente):
Os testes de homocedasticidade não são uma boa ferramenta ao testar a qualidade do ajuste do seu modelo. Com amostras pequenas, você não tem poder suficiente para detectar desvios da homoscedasticidade, enquanto que com amostras grandes você tem "bastante poder", é mais provável que você descubra até desvios triviais da igualdade.
Sua grande resposta veio como um tapa na minha cara. Eu costumava verificar suposições de normalidade e homoscedasticidade cada vez que executava a ANOVA.
Na sua opinião, qual é a melhor prática ao verificar as suposições da ANOVA?
Alguns gráficos serão geralmente muito mais esclarecedores do que o valor de p de um teste de normalidade ou homocedasticidade. Traçar as variáveis dependentes observadas em relação às variáveis independentes. Plote observações contra ajustes. Traçar resíduos contra variáveis independentes. Investigue qualquer coisa que pareça estranha nessas parcelas. Se algo não parece estranho, eu não me preocuparia com um teste significativo de uma suposição.
fonte
Existem alguns guias da web muito bons para verificar as suposições da ANOVA e o que fazer se falhar. Aqui está um. Este é outro.
Essencialmente, seu olho é o melhor juiz, assim como algumas análises exploratórias de dados . Isso significa plotar os dados - histogramas e gráficos de caixa são uma boa maneira de avaliar a normalidade e a homossexualidade. E lembre-se de que a ANOVA é robusta a pequenas violações dessas.
fonte
Os gráficos QQ são boas maneiras de detectar a não normalidade.
Para homocedasticidade, tente o teste de Levene ou um teste de Brown-Forsythe. Ambos são semelhantes, embora o BF seja um pouco mais robusto. Eles são menos sensíveis à não normalidade do que o teste de Bartlett, mas, mesmo assim, achei que eles não eram os mais confiáveis com amostras pequenas.
Gráfico QQ
Teste de Brown-Forsythe
Teste de Levene
fonte
Concordo com os outros que o teste de significância para suposições é problemático.
Gosto de lidar com esse problema criando um único gráfico que expõe todas as premissas do modelo necessárias para ter um erro preciso do tipo I e um baixo erro do tipo II (alta potência). Para o caso da ANOVA com 2 grupos (teste t de duas amostras), esse gráfico é o inverso normal da função de distribuição cumulativa empírica (ECDF) estratificada por grupo (consulte o comentário do gráfico de QQ em um post anterior). Para que o teste t tenha bom desempenho, as duas curvas precisam ser retas paralelas. Para ok exemplo de ANOVA em geral, você teria k linhas retas paralelas.
Métodos semi-paramétricos (classificação), como os testes de Wilcoxon e Kruskal-Wallis, fazem muito menos suposições. O logit do ECDF deve ser paralelo para que os testes de Wilcoxon-Kruskal-Wallis tenham potência máxima (o erro tipo I nunca é um problema para eles). Linearidade não é necessária. Os testes de classificação fazem suposições sobre como as distribuições de diferentes grupos estão relacionadas a outras, mas não fazem suposições sobre o formato de qualquer distribuição.
fonte