Qual é a diferença entre o teste de normalidade Shapiro-Wilk e o teste de normalidade Kolmogorov-Smirnov?

Respostas:

23

Você não pode nem comparar os dois, pois o Kolmogorov-Smirnov é para uma distribuição completamente especificada (por isso, se você estiver testando a normalidade, deverá especificar a média e a variação; elas não podem ser estimadas a partir dos dados *), enquanto o Shapiro-Wilk é de normalidade, com média e variância não especificadas.

* você também não pode padronizar usando parâmetros estimados e testar o padrão normal; isso é realmente a mesma coisa.

Uma maneira de comparar seria suplementar o Shapiro-Wilk com um teste para média e variância especificadas de forma normal (combinando os testes de alguma maneira) ou com as tabelas KS ajustadas para a estimativa de parâmetros (mas não haverá mais distribuição -livre).

Existe um teste desse tipo (equivalente ao Kolmogorov-Smirnov com parâmetros estimados) - o teste de Lilliefors; a versão do teste de normalidade pode ser validamente comparada à do Shapiro-Wilk (e geralmente terá uma potência mais baixa). Mais competitivo é o teste de Anderson-Darling (que também deve ser ajustado para a estimativa de parâmetros para que uma comparação seja válida).


Quanto ao que eles testam - o teste KS (e o Lilliefors) analisa a maior diferença entre o CDF empírico e a distribuição especificada, enquanto o Shapiro Wilk compara efetivamente duas estimativas de variação; o Shapiro-Francia intimamente relacionado pode ser considerado como uma função monotônica da correlação ao quadrado em um gráfico de QQ; se bem me lembro, o Shapiro-Wilk também leva em consideração covariâncias entre as estatísticas da ordem.

Editado para adicionar: Enquanto o Shapiro-Wilk quase sempre vence o teste de Lilliefors em alternativas de interesse, um exemplo em que não é o em amostras de médio e grande porte ( ). Lá, o Lilliefors tem maior poder.t30n>60

[Deve-se ter em mente que existem muito mais testes de normalidade disponíveis do que esses.]

Glen_b -Reinstate Monica
fonte
Essa é uma resposta interessante, mas estou tendo um pouco de dificuldade para entender como combiná-la com a prática. Talvez essas devam ser perguntas diferentes, mas qual é a consequência de ignorar a estimativa de parâmetros no teste KS? Isso implica que o teste de Lillefors tem menos potência que um KS realizado incorretamente, no qual os parâmetros foram estimados a partir dos dados?
russellpierce
@rpierce - O principal impacto do tratamento dos parâmetros estimados, como é conhecido, é reduzir drasticamente o nível de significância real (e, portanto, a curva de potência) do que deveria ser se você o levar em consideração (como faz o Lilliefors). Ou seja, o Lilliefors é o KS 'feito da maneira certa' para a estimativa de parâmetros e possui poder substancialmente melhor que o KS. Por outro lado, o Lilliefors tem poder muito pior do que o teste Shapiro-Wilk. Em resumo, o KS não é um teste especialmente poderoso para começar, e nós pioramos ao ignorar que estamos fazendo estimativa de parâmetros.
Glen_b -Reinstala Monica 13/11
... tendo em mente quando dizemos 'melhor poder' e 'pior poder' que geralmente estamos nos referindo ao poder contra o que as pessoas geralmente consideram tipos interessantes de alternativas.
Glen_b -Reinstate Monica
11
Eu já vi uma curva de poder; simplesmente não pensei sobre o que significaria abaixar ou elevar isso e, em vez disso, Deus se prendeu ao seu segundo comentário começar: "tendo em mente". De alguma forma, fiquei perplexo e pensei que você estava dizendo que poder "melhor" significava ter a curva de poder onde deveria "estar". Que talvez estivéssemos trapaceando e obtendo poder irrealista no KS porque estávamos entregando a ele parâmetros que deveriam ter sido penalizados por estimar (porque é isso que estou acostumado como consequência por não reconhecermos que um parâmetro vem de uma estimativa) .
russellpierce
11
Não tenho certeza de como perdi esses comentários antes, mas sim, os valores de p calculados usando o teste KS com parâmetros estimados como se fossem conhecidos / especificados tenderão a ser muito altos. Tente em R: hist(replicate(1000,ks.test(scale(rnorm(x)),pnorm)$p.value))- se os valores de p fossem como deveriam, isso pareceria uniforme!
Glen_b -Reinstala Monica
24

Resumidamente, o teste de Shapiro-Wilk é um teste específico para normalidade, enquanto o método usado pelo teste de Kolmogorov-Smirnov é mais geral, mas menos poderoso (o que significa que rejeita corretamente a hipótese nula de normalidade com menos frequência). Ambas as estatísticas tomam a normalidade como nula e estabelecem uma estatística de teste com base na amostra, mas como elas são diferentes umas das outras de maneiras que as tornam mais ou menos sensíveis aos recursos das distribuições normais.

O cálculo exato de W (a estatística de teste para Shapiro-Wilk) é um pouco complicado , mas conceitualmente envolve a organização dos valores da amostra por tamanho e a medição do ajuste em relação às médias, variações e covariâncias esperadas. Essas múltiplas comparações com a normalidade, como eu a entendo, dão ao teste mais poder do que o teste de Kolmogorov-Smirnov, que é uma das maneiras pelas quais elas podem diferir.

Por outro lado, o teste de normalidade de Kolmogorov-Smirnov é derivado de uma abordagem geral para avaliar a qualidade do ajuste, comparando a distribuição cumulativa esperada com a distribuição cumulativa empírica, vis:

texto alternativo

Como tal, é sensível no centro da distribuição, e não nas caudas. No entanto, o KS is test é convergente, no sentido de que, como n tende ao infinito, o teste converge para a verdadeira resposta em probabilidade (acredito que o Teorema de Glivenko-Cantelli se aplica aqui, mas alguém pode me corrigir). Existem mais duas maneiras pelas quais esses dois testes podem diferir na avaliação da normalidade.

John L. Taylor
fonte
3
Além disso ... O teste de Shapiro-Wilk é frequentemente usado ao estimar desvios da normalidade em pequenas amostras. Ótima resposta, John! Obrigado.
aL3xa
+1, duas outras observações sobre o KS: ele pode ser usado para testar qualquer distribuição principal (enquanto o SW é apenas para normalidade), e a menor potência pode ser uma coisa boa com amostras maiores.
gung - Restabelece Monica
Como a baixa potência é uma coisa boa? Enquanto o Tipo I permanecer o mesmo, a potência superior não será sempre melhor? Além disso, o KS geralmente não é menos poderoso, talvez apenas para leptokurtosis? Por exemplo, o KS é muito mais poderoso para inclinação sem um aumento proporcional nos erros do tipo 1.
John John
O Kolmogorov-Smirnov é para uma distribuição totalmente especificada. O Shapiro Wilk não é. Eles não podem ser comparados ... porque assim que você faz os ajustes necessários para torná-los comparáveis, você não tem mais um ou outro teste .
Glen_b -Reinstala Monica
Encontrado este estudo de simulação, no caso de acrescentar algo útil na maneira de detalhes. A mesma conclusão geral que a anterior: o teste Shapiro-Wilk é mais sensível. ukm.my/jsm/pdf_files/SM-PDF-40-6-2011/15%20NorAishah.pdf
Nick Stauner