Verificando suposições da ANOVA

16

Há alguns meses, publiquei uma pergunta sobre testes de homoscedasticidade no R on SO, e Ian Fellows respondeu isso (vou parafrasear sua resposta muito livremente):

Os testes de homocedasticidade não são uma boa ferramenta ao testar a qualidade do ajuste do seu modelo. Com amostras pequenas, você não tem poder suficiente para detectar desvios da homoscedasticidade, enquanto que com amostras grandes você tem "bastante poder", é mais provável que você descubra até desvios triviais da igualdade.

Sua grande resposta veio como um tapa na minha cara. Eu costumava verificar suposições de normalidade e homoscedasticidade cada vez que executava a ANOVA.

Na sua opinião, qual é a melhor prática ao verificar as suposições da ANOVA?

aL3xa
fonte

Respostas:

11

Nas configurações aplicadas, normalmente é mais importante saber se alguma violação das suposições é problemática por inferência.

Testes de suposição baseados em testes de significância raramente interessam a amostras grandes, porque a maioria dos testes inferenciais é robusta a violações leves de suposições.

Uma das características interessantes das avaliações gráficas de suposições é que elas concentram a atenção no grau de violação e não na significância estatística de qualquer violação.

No entanto, também é possível focar em resumos numéricos de seus dados que quantificam o grau de violação de suposições e não a significância estatística (por exemplo, valores de assimetria, valores de curtose, razão da maior para a menor variação de grupo etc.). Você também pode obter erros padrão ou intervalos de confiança nesses valores, que ficarão menores com amostras maiores. Essa perspectiva é consistente com a idéia geral de que a significância estatística não é equivalente à importância prática.

Jeromy Anglim
fonte
1
+1 para a ótima resposta que envolve tudo. Como aplicar os procedimentos numéricos mencionados é descrito de maneira adequada e aplicável em Usando estatísticas multivariadas de Tabachnik e Fidell (para SPSS e SAS): amazon.com/Using-Multivariate-Statistics-Barbara-Tabachnick/dp/… (mas veja as Erratas no página da web acompanhada)
Henrik
Bem, acho que na maioria das vezes resumos como assimetria e curtose têm pouco valor, sua variação amostral é muito grande. Pode-se considerar substituí-los por L_skewness e L-kurtosis, no entanto.
Kjetil b halvorsen 11/03/16
@kjetilbhalvorsen Acho que depende de que tipo de tamanho de amostra você costuma trabalhar. Na minha experiência, gráficos de gráficos e assimetria são muito úteis para entender a distribuição dos dados.
Jeromy Anglim
Jeremy Anglim: OK. Então eu acho que você geralmente tem tamanhos de amostra muito grandes! Você tentou inicializar seus coeficientes de assimetria / curtose?
Kjetil b halvorsen 11/03/16
9

Alguns gráficos serão geralmente muito mais esclarecedores do que o valor de p de um teste de normalidade ou homocedasticidade. Traçar as variáveis ​​dependentes observadas em relação às variáveis ​​independentes. Plote observações contra ajustes. Traçar resíduos contra variáveis ​​independentes. Investigue qualquer coisa que pareça estranha nessas parcelas. Se algo não parece estranho, eu não me preocuparia com um teste significativo de uma suposição.

S. Kolassa - Restabelecer Monica
fonte
Um bom conselho na maioria das vezes, mas e o caso de grandes conjuntos de dados, nos quais você não pode analisar todos os dados de maneira manual?
precisa
1
n1n2<ασ2
2
@dsimcha re grandes conjuntos de dados: depende do que você quer dizer com "grande". Muitas observações? Use bons gráficos (boxplot, parcelas tremidas e pontilhadas). Muitas variáveis ​​independentes? Sim, você tem razão aí ... Mas se você tem tantos IVs que não consegue plotar o DV em cada IV, eu questionaria usando uma ANOVA - parece que pode ser difícil de interpretar em qualquer caso. Algumas abordagens inteligentes de aprendizado de máquina podem ser melhores (Brian D. Ripley: "Parafraseando provocativamente, 'aprendizado de máquina é estatística menos qualquer verificação de modelos e suposições'.")
S. Kolassa - Restabelece Monica
Bom comentário, +1. Embora essa pergunta específica seja sobre ANOVA, eu estava pensando em um nível mais geral sobre a questão de gráficos versus testes quando escrevi minha resposta.
precisa saber é o seguinte
4

Existem alguns guias da web muito bons para verificar as suposições da ANOVA e o que fazer se falhar. Aqui está um. Este é outro.

Essencialmente, seu olho é o melhor juiz, assim como algumas análises exploratórias de dados . Isso significa plotar os dados - histogramas e gráficos de caixa são uma boa maneira de avaliar a normalidade e a homossexualidade. E lembre-se de que a ANOVA é robusta a pequenas violações dessas.

Thylacoleo
fonte
4

Os gráficos QQ são boas maneiras de detectar a não normalidade.

Para homocedasticidade, tente o teste de Levene ou um teste de Brown-Forsythe. Ambos são semelhantes, embora o BF seja um pouco mais robusto. Eles são menos sensíveis à não normalidade do que o teste de Bartlett, mas, mesmo assim, achei que eles não eram os mais confiáveis ​​com amostras pequenas.

Gráfico QQ

Teste de Brown-Forsythe

Teste de Levene

Christopher Aden
fonte
Gráficos de distribuição relativa (ou exemplo, comparando com a distribuição normal) podem ser um bom substituto, uma vez que sua interpretação pode ser mais clara para iniciantes.
b Kjetil Halvorsen
3

Concordo com os outros que o teste de significância para suposições é problemático.

Gosto de lidar com esse problema criando um único gráfico que expõe todas as premissas do modelo necessárias para ter um erro preciso do tipo I e um baixo erro do tipo II (alta potência). Para o caso da ANOVA com 2 grupos (teste t de duas amostras), esse gráfico é o inverso normal da função de distribuição cumulativa empírica (ECDF) estratificada por grupo (consulte o comentário do gráfico de QQ em um post anterior). Para que o teste t tenha bom desempenho, as duas curvas precisam ser retas paralelas. Para okexemplo de ANOVA em geral, você teria k linhas retas paralelas.

Métodos semi-paramétricos (classificação), como os testes de Wilcoxon e Kruskal-Wallis, fazem muito menos suposições. O logit do ECDF deve ser paralelo para que os testes de Wilcoxon-Kruskal-Wallis tenham potência máxima (o erro tipo I nunca é um problema para eles). Linearidade não é necessária. Os testes de classificação fazem suposições sobre como as distribuições de diferentes grupos estão relacionadas a outras, mas não fazem suposições sobre o formato de qualquer distribuição.

Frank Harrell
fonte
2
Consulte também stats.stackexchange.com/questions/190223/…
Nick Cox