Modelos estatísticos lineares aplicados por Kutner et al. declara o seguinte a respeito dos desvios da suposição de normalidade dos modelos ANOVA: A curtose da distribuição de erros (mais ou menos pico que uma distribuição normal) é mais importante que a distorção da distribuição em termos dos efeitos nas inferências .
Estou um pouco intrigado com esta afirmação e não consegui encontrar nenhuma informação relacionada, seja no livro ou online. Estou confuso porque também aprendi que gráficos QQ com caudas pesadas são uma indicação de que a suposição de normalidade é "boa o suficiente" para modelos de regressão linear, enquanto gráficos QQ distorcidos são mais uma preocupação (ou seja, uma transformação pode ser apropriada) .
Estou correto que o mesmo raciocínio vale para a ANOVA e que a escolha das palavras ( mais importante em termos dos efeitos nas inferências ) foi mal escolhida? Ou seja, uma distribuição distorcida tem consequências mais graves e deve ser evitada, enquanto uma pequena quantidade de curtose pode ser aceitável.
EDIT: Como abordado por rolando2, é difícil afirmar que um é mais importante que o outro em todos os casos, mas estou apenas procurando por uma visão geral. Minha questão principal é que fui ensinado que, em regressão linear simples, gráficos QQ com caudas mais pesadas (= curtose?) São bons, uma vez que o teste F é bastante robusto contra isso. Por outro lado, QQ distorcidas (em forma de parábola) são geralmente uma preocupação maior. Isso parece ir diretamente contra as diretrizes que meu livro fornece para ANOVA, mesmo que os modelos ANOVA possam ser convertidos em modelos de regressão e devam ter as mesmas premissas.
Estou convencido de que estou ignorando alguma coisa ou tenho uma suposição falsa, mas não consigo descobrir o que possa ser.
Respostas:
A dificuldade é que a assimetria e a curtose são dependentes; seus efeitos não podem ser completamente separados.
O problema é que, se você deseja examinar o efeito de uma distribuição altamente inclinada, também deve ter uma distribuição com alta curtose.
* (curtose comum do quarto momento em escala, não curtose excessiva)
Khan e Rayner (mencionados na resposta anterior) trabalham com uma família que permite alguma exploração do impacto da assimetria e curtose, mas eles não podem evitar esse problema; portanto, sua tentativa de separá-los limita severamente a extensão em que o efeito de assimetria pode ser explorada.
Por exemplo, se você deseja ver o efeito de alta assimetria - digamos, assimetria> 5, não é possível obter uma distribuição com curtose menor que 26!
Portanto, se você quiser investigar o impacto da alta assimetria, não poderá evitar investigar o impacto da alta curtose. Consequentemente, se você tentar separá-los, na verdade se manterá incapaz de avaliar o efeito de aumentar a assimetria para níveis altos.
Dito isto, pelo menos para a família de distribuição que consideravam, e dentro dos limites que a relação entre eles impõe, a investigação de Khan e Rayner parece sugerir que a curtose é o principal problema.
No entanto, mesmo que a conclusão seja completamente geral, se houver uma distribuição com (digamos) assimetria 5, é provável que seja pouco conforto dizer "mas não é a assimetria que é o problema!" - uma vez que sua assimetria é> 2-√
fonte
Esse problema foi solucionado em "Robustez à não normalidade de testes comuns para o problema de localização de muitas amostras", de Khan e Rayner.
Eles descobriram que os testes ANOVA são muito mais afetados pela curtose do que assimetria, e o efeito da distorção não tem relação com sua direção.
Se houver suspeita de desvio da normalidade, o teste de Kruskal-Wallis pode ser uma escolha melhor. O teste de Kruskal-Wallis é mais robusto a desvios da normalidade, porque examina a hipótese de que as medianas do tratamento são idênticas. A ANOVA examina a hipótese de que os meios de tratamento são idênticos.
fonte