Interpretação do teste de Shapiro-Wilk

29

Sou novato em estatísticas e preciso de sua ajuda.
Eu tenho uma pequena amostra, da seguinte maneira:

  H4U
  0.269
  0.357
  0.2
  0.221
  0.275
  0.277
  0.253
  0.127
  0.246

Eu executei o teste Shapiro-Wilk usando R:

shapiro.test(precisionH4U$H4U)

e obtive o seguinte resultado:

 W = 0.9502, p-value = 0.6921

Agora, se eu assumir que o nível de significância em 0,05 do que o valor p é maior, então alfa (0,6921> 0,05) e não posso rejeitar a hipótese nula sobre a distribuição normal, mas isso me permite dizer que a amostra tem uma distribuição normal ?

Obrigado!

Jakub
fonte

Respostas:

28

Não - você não pode dizer "a amostra tem uma distribuição normal" ou "a amostra vem de uma população que tem uma distribuição normal", mas apenas "você não pode rejeitar a hipótese de que a amostra vem de uma população que tem uma distribuição normal".

De fato, a amostra não possui uma distribuição normal (veja o qqplot abaixo), mas você não esperaria, pois é apenas uma amostra. A questão da distribuição da população subjacente permanece em aberto.

qqnorm( c(0.269, 0.357, 0.2, 0.221, 0.275, 0.277, 0.253, 0.127, 0.246) )

qqplot

Henry
fonte
2
os olhares qqplot bonita como normal, eu acho que ... você pode tentar qqnorm(rnorm(9))várias vezes ...
Curioso
2
@ Tomas: Talvez seja melhor dizer "o qqplot parece ter vindo de uma população normal". Em vez disso, poderia ter vindo de uma distribuição com caudas mais pesadas.
Henry
Sim, qqnorm(runif(9))pode produzir resultado semelhante. Então, na verdade, não podemos dizer nada ...
Curioso
qual é a diferença entre "a amostra tem uma distribuição normal" e "a amostra vem de uma população que tem uma distribuição normal"?
auraham
1
Uma distribuição normal é uma distribuição contínua sobre todos os reais. Uma amostra (finita ou até infinitamente contável) não pode ter esse tipo de distribuição em si, mesmo que seja extraída de uma população que possui essa distribuição.
Henry
17

Deixar de rejeitar uma hipótese nula é uma indicação de que a amostra que você possui é muito pequena para detectar quaisquer desvios da normalidade que você possui - mas sua amostra é tão pequena que mesmo desvios substanciais da normalidade provavelmente não serão detectados.

No entanto, na maioria dos casos, um teste de hipóteses é praticamente irrelevante para o qual as pessoas usam um teste de normalidade - você realmente sabe a resposta para a pergunta que está testando - a distribuição da população a partir dos dados coletados não será normal . (Pode ser bem próximo às vezes, mas na verdade normal?)

A pergunta com a qual você deve se preocupar não é 'é a distribuição que eles tiram do normal' (não será). A pergunta com a qual você realmente deve se preocupar é mais como "é o desvio da normalidade que impactarei materialmente meus resultados?". Se isso é potencialmente um problema, você pode considerar uma análise com menor probabilidade de ter esse problema.

Glen_b -Reinstate Monica
fonte
10

t

tt

Especulo ainda que você está olhando para proporções; nesse caso, você poderia usar uma distribuição binomial se estivesse preocupado com violações de suposições.

Se foi alguma outra preocupação que levou você aos testes de Shapiro, pode ignorar tudo o que acabei de dizer.

Thomas Levine
fonte
Você acertou, queria saber se posso usar o teste t para minha amostra. Obrigado!
Jakub
4

Como Henry já disse, você não pode dizer que é normal. Apenas tente executar o seguinte comando no R várias vezes:

shapiro.test(runif(9)) 

Isso testará a amostra de 9 números da distribuição uniforme. Muitas vezes o valor p será muito maior que 0,05 - o que significa que você não pode concluir que a distribuição é normal.

Curioso
fonte
4

Eu também estava pensando em como interpretar adequadamente o valor W no teste Shapiro-Wilk e, de acordo com o artigo de Emil OW Kirkegaard "Os valores W do teste Shapiro-Wilk visualizados com diferentes conjuntos de dados ", é muito difícil dizer algo sobre a normalidade de um distribuição olhando apenas o valor W.

Como ele afirma em conclusão:

Geralmente vemos que, dada uma amostra grande, o SW é sensível a desvios da não normalidade. Se a partida for muito pequena, no entanto, não é muito importante.

Também vemos que é difícil reduzir o valor W, mesmo que alguém tente deliberadamente. É necessário testar a distribuição extremamente fora do normal para que ela caia consideravelmente abaixo de 0,99.

Veja o artigo original para mais informações.

Denis Rasulev
fonte
1

Uma questão importante não mencionada na resposta anterior são as limitações do teste:

O teste tem limitações, o mais importante é que o teste tem um viés pelo tamanho da amostra . Quanto maior a amostra, maior a probabilidade de obter um resultado estatisticamente significativo.

Para responder à pergunta original (tamanho da amostra muito pequeno): consulte os seguintes artigos sobre melhores alternativas, como gráfico de QQ e histograma para este caso específico.

Stenemo
fonte