Li em algum lugar na literatura que o teste de Shapiro-Wilk é considerado o melhor teste de normalidade porque, para um dado nível de significância, , a probabilidade de rejeitar a hipótese nula se falsa é maior do que no caso da outra normalidade testes.
Você poderia me explicar, usando argumentos matemáticos, se possível, como exatamente funciona em comparação com alguns dos outros testes de normalidade (por exemplo, o teste de Anderson-Darling)?
Respostas:
Primeiro um comentário geral: observe que o teste de Anderson-Darling é para distribuições completamente especificadas, enquanto o Shapiro-Wilk é para normais com qualquer média e variação. No entanto, como observado em D'Agostino & Stephens [ 1 ], o Anderson-Darling se adapta de maneira muito conveniente ao caso de estimativa, semelhante a (mas converge mais rapidamente e é modificado de uma maneira mais simples de lidar do que o teste de Lilliefors para o caso Kolmogorov-Smirnov). Especificamente, no normal, por n = 5 , tabelas do valor assintótico de A ∗ = A 2 ( 1 + 4[1] n=5 A∗=A2(1+4n−25n2) pode ser usado (não teste a qualidade do ajuste para n <5).
Como uma declaração geral, isso é falso.
Quais testes de normalidade são "melhores" dependem de quais classes de alternativas você está interessado. Uma das razões pelas quais o Shapiro-Wilk é popular é que ele tende a ter um poder muito bom sob uma ampla variedade de alternativas úteis. Ele aparece em muitos estudos de poder e geralmente funciona muito bem, mas não é universalmente melhor.
É muito fácil encontrar alternativas sob as quais é menos poderoso.
Por exemplo, contra alternativas de cauda leve, geralmente tem menos potência do que o intervalo estudado (compare-os em um teste de normalidade em dados uniformes, por exemplo - emn=30, um teste baseado emutem poder de cerca de 63% em comparação com pouco mais de 38% para o Shapiro Wilk).u = max ( x ) - min ( x )s d( X ) n = 30 você
O Anderson-Darling (ajustado para estimativa de parâmetros) se sai melhor no exponencial duplo. A inclinação do momento é melhor em relação a algumas alternativas de inclinação.
Explicarei em termos gerais (se você quiser detalhes mais específicos, os trabalhos originais e alguns dos trabalhos posteriores que os discutem seriam sua melhor aposta):
Considere um teste mais simples, mas estreitamente relacionado, o Shapiro-Francia; é efetivamente uma função da correlação entre as estatísticas da ordem e as estatísticas da ordem esperada sob normalidade (e, como tal, uma medida bastante direta de "quão reta é a linha" no gráfico QQ normal). Pelo que me lembro, o Shapiro-Wilk é mais poderoso porque também leva em consideração as covariâncias entre as estatísticas da ordem, produzindo um melhor estimador linear de partir do gráfico QQ, que é então escalado por s . Quando a distribuição está longe do normal, a proporção não é próxima de 1.σ s
Em comparação, o Anderson-Darling, como o Kolmogorov-Smirnov e o Cramér-von Mises, baseia-se no CDF empírico. Especificamente, ele se baseia em desvios ponderados entre o ECDF e o ECDF teórico (a ponderação por variação torna mais sensível aos desvios na cauda).
O teste de Shapiro e Chen [ 2 ] (1995) (baseado em espaçamentos entre estatísticas de ordens) geralmente exibe um pouco mais de poder do que o Shapiro-Wilk (mas nem sempre); eles costumam ter um desempenho muito semelhante.[ 2 ]
-
Use o Shapiro Wilk porque ele é frequentemente poderoso, amplamente disponível e muitas pessoas estão familiarizadas com ele (removendo a necessidade de explicar em detalhes o que é se você o usar em um artigo) - apenas não o use com a ilusão de que é "o melhor teste de normalidade". Não há um melhor teste de normalidade.
[1]: D'Agostino, RB e Stephens, MA (1986)
Técnicas de ajuste de qualidade ,
Marcel Dekker, Nova York.
[2]: Chen, L. e Shapiro, S. (1995)
"Um teste alternativo de normalidade com base em espaçamentos normalizados".
Jornal de Computação Estatística e Simulação 53 , 269-287.
fonte
shapiro.test
em R receberá um erro.sample size must be between 3 and 5000
Então, qual outro teste deve ser usado?Claramente, a comparação que você leu não incluiu
SnowsPenultimateNormalityTest
( http://cran.r-project.org/web/packages/TeachingDemos/TeachingDemos.pdf ), pois possui a maior potência possível em todas as alternativas. Portanto, deve ser considerado "Melhor" se o poder for a única consideração (observe que minhas opiniões são claramente tendenciosas, mas documentadas no link / documentação).No entanto, concordo com o comentário de Nick Cox de que o melhor teste é um enredo, e não um teste formal, já que a pergunta "Normal o suficiente" é muito mais importante do que "Exatamente normal". Se você quiser um teste significativo, sugiro combinar o gráfico qq com a metodologia deste artigo:
Uma implementação disso é a
vis.test
função no pacote TeachingDemos para R (mesmo pacote queSnowsPenultimateNormalityTest
).fonte
Estou atrasado para a festa, mas responderei com referências à pesquisa publicada por pares. A razão pela qual eu não respondo Sim / Não à pergunta do OP é que ela é mais complicada do que parece. Não há um teste que seja o mais poderoso para amostras provenientes de qualquer distribuição com ou sem discrepâncias. Os valores discrepantes podem diminuir drasticamente o poder de um teste e aumentar para outro. Alguns testes funcionam melhor quando a amostra é proveniente de distribuição simétrica etc.
e
Se você realmente deseja resumir a pesquisa deles em sim / não, a resposta é SIM. O teste de Shapiro-Wilks parece ser um pouco mais poderoso na maioria dos casos do que Anderson-Darling. Eles recomendam o teste Shapiro Wilk quando você não tem uma distribuição alternativa específica em mente. No entanto, se você estiver interessado neste assunto, vale a pena ler o artigo. Pelo menos olhe para as mesas.
Edith Seier, Testes de Normalidade: Comparação de Potência , na Enciclopédia Internacional de Ciência Estatística, 2014 - Uma pesquisa de pesquisa publicada sobre o assunto. Novamente, a resposta depende da amostra e do seu conhecimento sobre a distribuição alternativa, mas a resposta trivial seria SIM, Shapiro-Wilk é geralmente mais poderoso, mas nem sempre.
Henry C. Thode, Testes de normalidade , na Enciclopédia Internacional de Ciência Estatística, 2014 - Descrição dos testes de normalidade populares. Sua recomendação:
Agora, isso era tudo sobre testes univariados. The Thode (2002) também possui teste multivariado, dados censurados, misturas normais, testes na presença de outliers e muito mais.
fonte
Uma resposta mais séria para aprofundar esta questão e especialmente o interesse contínuo do @ silverfish. Uma abordagem para responder a perguntas como essa é executar algumas simulações para comparar. Abaixo está um código R que simula dados sob várias alternativas e faz vários testes de normalidade e compara a potência (e um intervalo de confiança na potência, uma vez que a energia é estimada por simulação). Ajustei um pouco o tamanho da amostra porque não era interessante quando muitos dos poderes estavam perto de 100% ou 5%, encontrei números redondos que forneciam poderes perto de 80%. Qualquer pessoa interessada pode facilmente pegar esse código e modificá-lo para diferentes suposições, alternativas diferentes etc.
Você pode ver que existem alternativas para as quais alguns dos testes se saem melhor e outros onde eles se saem pior. A questão importante é, então, quais alternativas são mais realistas para suas questões / áreas científicas. Isso realmente deve ser seguido com uma simulação do efeito dos tipos de não normalidade de interesse em outros testes que estão sendo realizados. Alguns desses tipos de não normalidade afetam muito outros testes com base normal, outros não os afetam muito.
fonte