Contexto:
Em uma pergunta anterior, o @Robbie perguntou em um estudo com cerca de 600 casos por que os testes de normalidade sugeriam não normalidade significativa, mas os gráficos sugeriam distribuições normais . Várias pessoas argumentaram que testes de significância da normalidade não são muito úteis. Com amostras pequenas, esses testes não têm muito poder para detectar violações leves da normalidade e com amostras grandes, eles detectam violações da normalidade que são suficientemente pequenas para não serem motivo de preocupação.
Parece-me que esse problema é semelhante ao debate sobre testes de significância e tamanhos de efeito. Se você se concentrar apenas nos testes de significância, quando tiver grandes amostras, poderá detectar pequenos efeitos que são irrelevantes para fins práticos, e com amostras pequenas você não terá energia suficiente.
Em alguns casos, eu já vi livros didáticos aconselharem as pessoas que você pode ter uma amostra "muito grande", porque pequenos efeitos serão estatisticamente significativos.
No contexto, de testes de significância e tamanhos de efeito, uma resolução simples é focar na estimativa do tamanho do efeito de interesse, em vez de ficar obcecado com a regra de decisão binária de saber se existe ou não um efeito. Intervalos de confiança nos tamanhos dos efeitos é uma dessas abordagens, ou você pode adotar alguma forma de abordagem bayesiana. Além disso, vários domínios de pesquisa constroem idéias sobre o que um determinado tamanho de efeito significa, no sentido prático, para o bem ou para o mal, aplicando rótulos heurísticos como "pequeno", "médio" e "grande efeito". Isso também leva à recomendação inteligente de maximizar o tamanho da amostra, a fim de maximizar a precisão na estimativa de um determinado parâmetro de interesse.
Isso me faz pensar por que uma abordagem semelhante baseada em intervalos de confiança de tamanhos de efeito não é mais amplamente adotada em relação ao teste de suposição e ao teste de normalidade em particular.
Questão:
- Qual é o melhor índice único do grau em que os dados violam a normalidade?
- Ou é apenas melhor falar sobre vários índices de violação da normalidade (por exemplo, assimetria, curtose, prevalência externa)?
- Como os intervalos de confiança podem ser calculados (ou talvez uma abordagem bayesiana) para o índice?
- Que tipo de legendas verbais você poderia atribuir a pontos desse índice para indicar o grau de violação da normalidade (por exemplo, leve, moderada, forte, extrema etc.)? O objetivo desses rótulos poderia ser ajudar analistas com menos experiência no treinamento de sua intuição de quando as violações da normalidade são problemáticas.
Respostas:
A) Qual é o melhor índice individual do grau em que os dados violam a normalidade?
B) Ou é apenas melhor falar sobre vários índices de violação da normalidade (por exemplo, assimetria, curtose, prevalência externa)?
Eu votaria em B. Violações diferentes têm consequências diferentes. Por exemplo, distribuições simétricas e unimodais com caudas pesadas tornam seus ICs muito amplos e, presumivelmente, reduzem o poder de detectar quaisquer efeitos. A média, no entanto, ainda atinge o valor "típico". Para distribuições muito assimétricas, a média, por exemplo, pode não ser um índice muito sensível do "valor típico".
C) Como os intervalos de confiança podem ser calculados (ou talvez uma abordagem bayesiana) para o índice?
Não conheço estatística bayesiana, mas, quanto ao teste clássico de normalidade, gostaria de citar Erceg-Hurn et al. (2008) [2]:
D) Que tipo de legendas verbais você poderia atribuir a pontos desse índice para indicar o grau de violação da normalidade (por exemplo, leve, moderada, forte, extrema etc.)?
Micceri (1989) [1] fez uma análise de 440 conjuntos de dados em larga escala em psicologia. Ele avaliou a simetria e o peso da cauda e definiu critérios e rótulos. Os rótulos para assimetria variam de 'relativamente simétrico' a 'moderado -> extremo -> assimetria exponencial'. As etiquetas para o peso da cauda variam de 'Uniforme -> menor que gaussiano -> Sobre gaussiano -> Moderado -> Extremo -> Dupla contaminação exponencial'. Cada classificação é baseada em vários critérios robustos.
Ele descobriu que, desses 440 conjuntos de dados, apenas 28% eram relativamente simétricos e apenas 15% eram sobre gaussianos em relação aos pesos de cauda. Portanto, o belo título do artigo:
Escrevi uma
R
função que avalia automaticamente os critérios de Micceri e também imprime os rótulos:Aqui está um teste para a distribuição normal padrão, um com 8 df e um log-normal:t
[1] Micceri, T. (1989). O unicórnio, a curva normal e outras criaturas improváveis. Boletim Psicológico, 105 , 156-166. doi: 10.1037 / 0033-2909.105.1.156
[2] Erceg-Hurn, DM e Mirosevich, VM (2008). Métodos estatísticos robustos e modernos: uma maneira fácil de maximizar a precisão e o poder de sua pesquisa. American Psychologist, 63 , 591-601.
fonte