Testes de normalidade adequados para amostras pequenas

22

Até agora, tenho usado a estatística Shapiro-Wilk para testar suposições de normalidade em pequenas amostras.

Você poderia recomendar outra técnica?

aL3xa
fonte
1
Aqui estão algumas outras questões de possível interesse: é-teste-normalidade-essencialmente-inútil , para uma discussão sobre o valor do teste-normalidade e resíduos residuais-são-normalmente-distribuídos-mas-y-é- não , para uma discussão / esclarecimento do sentido em que a normalidade é uma suposição de um modelo linear.
gung - Restabelece Monica
3
O Wilk em Shapiro-Wilk refere-se a Martin B. Wilk. É muito fácil escrever "Wilks", especialmente (a) se alguém disse ou escreveu isso e você está copiando (b) você conhece o trabalho nas estatísticas de Samuel S. Wilks, uma pessoa bem diferente (c) que recebe confuso sobre terminais "s" em inglês, dados seus outros usos para plurais (estatísticas, gatos, cães, ...) e possessivos (s), o que é comum mesmo entre aqueles cuja primeira língua é o inglês. Eu editei esta discussão na medida do possível; Não consigo entrar em comentários.
Nick Cox

Respostas:

24

O pacote fBasics em R (parte do Rmetrics ) inclui vários testes de normalidade , cobrindo muitos dos testes freqüentistas populares - Kolmogorov-Smirnov, Shapiro-Wilk, Jarque – Bera e D'Agostino - junto com um invólucro para os testes de normalidade no pacote mais setentrional - Anderson-Darling, Cramer-von Mises, Lilliefors (Kolmogorov-Smirnov), qui-quadrado de Pearson e Shapiro-Francia. A documentação do pacote também fornece todas as referências importantes. Aqui está uma demonstração que mostra como usar os testes do nortest .

Uma abordagem, se você tiver tempo, é usar mais de um teste e verificar se há acordo. Os testes variam de várias maneiras, portanto, não é totalmente fácil escolher "o melhor". O que outros pesquisadores da sua área usam? Isso pode variar e pode ser melhor seguir os métodos aceitos para que outras pessoas aceitem seu trabalho. Eu freqüentemente uso o teste de Jarque-Bera, em parte por esse motivo, e Anderson-Darling para comparação.

Você pode consultar "Comparação de testes de normalidade univariada" (Seier 2002) e "Uma comparação de vários testes de normalidade" (Yazici; Yolacan 2007) para uma comparação e discussão dos problemas.

Também é trivial testar esses métodos para comparação em R, graças a todas as funções de distribuição . Aqui está um exemplo simples com dados simulados (não imprimirei os resultados para economizar espaço), embora uma exposição mais completa seja necessária:

library(fBasics); library(ggplot2)
set.seed(1)

# normal distribution
x1 <- rnorm(1e+06)   
x1.samp <- sample(x1, 200)
qplot(x1.samp, geom="histogram")
jbTest(x1.samp)
adTest(x1.samp)

# cauchy distribution
x2 <- rcauchy(1e+06)
x2.samp <- sample(x2, 200)
qplot(x2.samp, geom="histogram")
jbTest(x2.samp)
adTest(x2.samp)

Depois de obter os resultados dos vários testes em diferentes distribuições, você pode comparar quais foram os mais eficazes. Por exemplo, o valor de p para o teste de Jarque-Bera acima retornou 0,276 para a distribuição normal (aceitando) e <2,2e-16 para o cauchy (rejeitando a hipótese nula).

Shane
fonte
Obrigado Shane, ótima resposta! Bem, "os outros" do meu campo costumam usar o SPSS, então eles usam Kolmogorov-Smirnov (se eles verificam a normalidade), embora IMHO o teste de Lilliefors seja uma escolha melhor quando os dados são coletados de uma amostra (quando os parâmetros são desconhecido). Foi-me ensinado que o Shapiro-Wilk's é apropriado para amostras pequenas e só queria obter mais informações sobre "testes de normalidade de amostras pequenas" ... BTW, eu uso o nortest no R! =)
aL3xa 13/08
12

Por normalidade, o Shapiro-Wilk real tem um bom poder em amostras relativamente pequenas.

O principal concorrente nos estudos que eu vi é o Anderson-Darling, mais geral, que se sai muito bem, mas não diria que foi melhor. Se você puder esclarecer quais alternativas lhe interessam, possivelmente uma estatística melhor seria mais óbvia. [editar: se você estimar parâmetros, o teste do AD deve ser ajustado para isso.]

[Eu recomendo fortemente que não consideremos Jarque-Bera em amostras pequenas (que provavelmente são mais conhecidas como Bowman-Shenton nos círculos estatísticos - elas estudaram a distribuição de amostras pequenas). A distribuição conjunta assintótica de assimetria e curtose não se parece com a distribuição de pequenas amostras - da mesma forma que uma banana não se parece muito com uma laranja. Ele também possui potência muito baixa contra algumas alternativas interessantes - por exemplo, possui baixa potência para captar uma distribuição bimodal simétrica que possui curtose próxima à de uma distribuição normal.]

Freqüentemente, as pessoas testam a qualidade do ajuste por razões que não são particularmente boas, ou estão respondendo a uma pergunta diferente daquela que realmente desejam responder.

Por exemplo, você quase certamente já sabe que seus dados não são realmente normais (não exatamente), então não faz sentido tentar responder a uma pergunta para a qual você sabe a resposta - e o teste de hipótese não responde de qualquer maneira .

Como você sabe que ainda não possui a normalidade exata, seu teste de hipótese de normalidade está realmente lhe dando uma resposta para uma pergunta mais próxima de "é o tamanho da minha amostra grande o suficiente para captar a quantidade de não normalidade que eu tenho", enquanto a pergunta real em que você está interessado em responder geralmente está mais próxima de "qual é o impacto dessa não normalidade nessas outras coisas em que estou interessado?". O teste de hipótese está medindo o tamanho da amostra, enquanto a pergunta que você está interessado em responder não depende muito do tamanho da amostra.

Há momentos em que o teste de normalidade faz algum sentido, mas essas situações quase nunca ocorrem com amostras pequenas.

Por que você está testando a normalidade?

Glen_b -Reinstate Monica
fonte
Obrigado por uma ótima resposta e uma ótima pergunta depois. É crucial obter uma visão sobre o pano de fundo do problema. Bem, tantas vezes eu já vi pessoas fazendo o teste t, o r de Pearson ou a ANOVA sem ter nenhuma idéia sobre o formato da distribuição (que geralmente é distorcida) - técnicas paramétricas "precisam" da suposição de normalidade satisfeita. Em psicologia (que é o meu campo de interesse), geralmente lidamos com pequenas amostras, portanto, preciso de um teste de normalidade apropriado.
precisa saber é
5
Mas a normalidade nunca é satisfeita. Às vezes, é uma descrição razoável dos dados, mas na verdade não são normais. Embora seja sensato verificar a não normalidade quando você assume, não é particularmente útil testá-lo (pelos motivos que descrevi acima). Eu faço um qq-plot, por exemplo, mas um teste de hipótese responde à pergunta errada nessa situação. Os testes t e a anova geralmente funcionam razoavelmente bem se as distribuições não forem muito inclinadas. Uma abordagem melhor pode ser usar procedimentos que não assumem normalidade - talvez técnicas de reamostragem.
Glen_b -Reinstala Monica
Ou você pode usar testes não paramétricos, com o custo de ter menos energia. E nada é absolutamente satisfeito nas estatísticas, não é apenas uma questão de normalidade. No entanto, bootstrapping ou jackknifing não são uma solução ao introduzir alguém para testar t e / ou suposições da ANOVA. Duvido que as técnicas de reamostragem resolvam os problemas de normalidade. Deve-se verificar a normalidade graficamente (gráfico de densidade, boxplot, QQplot, histograma) e "numericamente" (testes de normalidade, assimetria, curtose, etc.). O que você sugere? Isso é completamente fora de tópico, mas como você verificaria, por exemplo, as suposições de normalidade da ANOVA?
aL3xa
@ aL3xa Acho que a abordagem de randomização é mais apropriada, considerando seu campo de pesquisa; Não obstante o fato de que os testes paramétricos usuais fornecem boa aproximação aos testes de permutação exata, os testes não paramétricos também implicam algum tipo de suposição (por exemplo, na forma da distribuição). Eu até me pergunto como poderíamos realmente definir o que é um desvio da normalidade em um estudo de amostra pequena. Eu acho que você deveria pedir uma discussão mais aprofundada sobre esse ponto em uma pergunta separada.
chl
10

Há toda uma categoria da Wikipedia em testes de normalidade, incluindo:

Eu acho que o AD é provavelmente o melhor deles.

Rob Hyndman
fonte
1
Concordo. Realizei um teste rápido do teste AD, Jarque-Bera e Spiegelhalter (1983), sob o nulo, com tamanho de amostra 8, repetindo 10.000 vezes. O teste AD mantém a taxa de rejeição nominal e fornece pvals uniformes, enquanto o teste JB é terrível, a Spiegelhalter é mediana.
shabbychef
1
@shabbychef O teste de Jarque-Bera baseia-se na normalidade assintótica da assimetria e curtose da amostra, que não funciona bem mesmo para n nos 100s baixos . Mas, para obter a taxa de rejeição desejada, você pode ajustar valores críticos, por exemplo, com base nos resultados da simulação, como na Seção 4.1 de Thadewald, T e H. Buning, 2004, teste de Jarque-Bera e seus concorrentes para testar a normalidade - Uma comparação de potência , Discussão Paper Economics 2004/9, Faculdade de Administração e Economia, Universidade Livre de Berlim.
precisa
3

Por questões de integridade, os economistas também gostam do teste de Kiefer e Salmon de seu artigo de 1983 na revista Economics Letters - resume expressões "normalizadas" de assimetria e curtose, que são então distribuídas pelo qui-quadrado. Eu tenho uma versão antiga do C ++ que escrevi durante a pós-graduação que eu poderia traduzir para R.

Edit: E aqui está um artigo recente de Bierens (re) derivando Jarque-Bera e Kiefer-Salmon.

Edição 2: Examinei o código antigo e parece que realmente é o mesmo teste entre Jarque-Bera e Kiefer-Salmon.

Dirk Eddelbuettel
fonte
2

De fato, o teste Kiefer Salmon e o teste Jarque Bera são criticamente diferentes, como mostrado em vários lugares, mas mais recentemente aqui - Testes de Momento para Distribuições Padronizadas de Erros: Uma Abordagem Robusta Simples por Yi-Ting Chen. O teste Kiefer Salmon por construção é robusto diante das estruturas de erro do tipo ARCH, ao contrário do teste padrão de Jarque Bera. O artigo de Yi-Ting Chen desenvolve e discute o que eu acho que provavelmente serão os melhores testes disponíveis no momento.

Mark Salmon
fonte
4
Chen parece se concentrar em conjuntos de dados maiores, o que faz sentido, porque o quarto, o sexto e o maior momentos envolvidos nesses testes levarão algum tempo para se estabelecer em níveis assintóticos. Porém, testes distributivos são normalmente usados ​​para conjuntos de dados menores que 250 valores (o mínimo estudado neste artigo). De fato, a maioria deles se torna tão poderosa com grandes quantidades de dados que são pouco mais que reflexões em tais aplicativos. Ou há mais coisas acontecendo aqui do que eu estou vendo?
whuber
0

Para tamanhos de amostra <30 indivíduos, considera-se que Shapiro-Wilk possui um poder robusto - Cuidado ao ajustar o nível de significância do teste, pois isso pode induzir um erro do tipo II! [1]

Aliakbar Ahmadi
fonte
Em amostras pequenas, os testes de qualidade do ajuste geralmente não conseguem rejeitar a normalidade.
Michael R. Chernick
@MichaelChernick o que acontece no caso específico, então? Qual é a razão por trás de um pequeno ser pequeno "classificado" como não normal?
Aliakbar Ahmadi