Analisei um experimento com medidas repetidas ANOVA. A ANOVA é uma 3x2x2x2x3 com 2 fatores entre sujeitos e 3 dentro (N = 189). A taxa de erro é a variável dependente. A distribuição das taxas de erro tem uma inclinação de 3,64 e uma curtose de 15,75. A inclinação e curtose são o resultado de 90% da taxa de erro significa ser 0. A leitura de alguns dos threads anteriores nos testes de normalidade aqui me deixa um pouco confuso. Eu pensei que se você tivesse dados que não eram normalmente distribuídos, seria do seu interesse transformá-los se possível, mas parece que muitas pessoas pensam que a análise de dados não normais com uma ANOVA ou um teste T é aceitável. Posso confiar nos resultados da ANOVA?
(FYI, pretendo no futuro analisar esse tipo de dados em R com modelos mistos com distribuição binomial)
Respostas:
Como outros testes paramétricos, a análise de variância assume que os dados se ajustam à distribuição normal. Se sua variável de medição não for normalmente distribuída, você poderá aumentar sua chance de um resultado falso positivo se analisar os dados com uma anova ou outro teste que assume a normalidade. Felizmente, uma anova não é muito sensível a desvios moderados da normalidade; estudos de simulação, usando uma variedade de distribuições não normais, mostraram que a taxa de falsos positivos não é afetada muito por essa violação da suposição (Glass et al. 1972, Harwell et al. 1992, Lix et al. 1996). Isso ocorre porque quando você coleta um grande número de amostras aleatórias de uma população, os meios dessas amostras são distribuídos aproximadamente normalmente, mesmo quando a população não é normal.
É possível testar a qualidade do ajuste de um conjunto de dados para a distribuição normal. Não sugiro que você faça isso, porque muitos conjuntos de dados significativamente não normais seriam perfeitamente apropriados para uma anova.
Em vez disso, se você tiver um conjunto de dados grande o suficiente, sugiro que você analise o histograma de frequência. Se parecer mais ou menos normal, vá em frente e faça uma anova. Se parecer que uma distribuição normal foi empurrada para um lado, como os dados de sulfato acima, tente diferentes transformações de dados e veja se alguma delas faz o histograma parecer mais normal. Se isso não funcionar, e os dados ainda parecerem muito normais, provavelmente ainda será bom analisar os dados usando uma anova. No entanto, você pode querer analisá-lo usando um teste não paramétrico. Praticamente todos os testes estatísticos paramétricos têm um substituto não paramétrico, como o teste de Kruskal-Wallis em vez de uma anova de mão única, o teste de postos assinados de Wilcoxon em vez de um teste t emparelhado e a correlação de pontos de Spearman em vez de regressão linear. Esses testes não paramétricos não pressupõem que os dados se ajustem à distribuição normal. No entanto, eles assumem que os dados em grupos diferentes têm a mesma distribuição; se grupos diferentes têm distribuições de formas diferentes (por exemplo, uma é inclinada para a esquerda, outra é inclinada para a direita), um teste não paramétrico pode não ser melhor do que um paramétrico.
Referências
fonte
Especificamente em relação às taxas de erro como DV, Dixon (2008) demonstra de maneira muito convincente que o teste de hipóteses nulas via ANOVA pode causar taxas aumentadas de alarmes falsos (efeitos de chamada "significativos" quando não são) e taxas de erros aumentadas (efeitos reais ausentes). Ele também mostra que a modelagem de efeitos mistos, especificando erro distribuído binomialmente, é a abordagem mais apropriada para analisar dados de taxa.
fonte
Você não pode confiar na sua ANOVA com tanta inclinação e um grande número de 0s. Um método mais apropriado seria usar o número de erros como seu DV (transformando seu DV em dados de contagem) e fazendo uma análise de Poisson. Essa abordagem exigiria o uso de uma análise de efeitos mistos e a especificação da família de distribuição de erros como Poisson. O artigo de Dixon (2008) * mencionado por Mike Lawrence usa análise de efeitos mistos em R, mas com resultados binomiais. Eu mudei completamente para fazer R na maioria das minhas análises de medidas repetidas, porque muitas das minhas variáveis de resultado são binomiais. O pacote R adequado é
lme4
.fonte
Juan ofereceu muito, apesar de eu repetir outros e repetir que, para obter melhor precisão, as variáveis em si podem não ser normais, desde que seus resíduos não sejam. Além disso, uma resposta simplificada e um pouco mais estruturada (por meio de um fluxograma anotado) está disponível em yellowbrickstats.com .
fonte
Efeitos de teto são o problema aqui. Um teste não paramétrico é sua aposta mais segura, embora as ANOVAs sejam robustas a essa violação da normalidade se n for grande. Normalmente, as pessoas usam apenas um histograma para testar isso, mas se o problema for com resíduos, pode ser mais avançado do que isso. Lembre-se de como isso afeta seus resultados (não apenas o que ocorre). Pallant (2007) provavelmente diria que isso aumenta sua chance de erro do tipo um; portanto, se você reduzir seu alfa crítico, mitiga-o.
fonte