No R, tenho uma amostra de 348 medidas e quero saber se posso assumir que ela é normalmente distribuída para testes futuros.
Essencialmente, seguindo outra resposta da pilha , estou analisando o gráfico de densidade e o gráfico QQ com:
plot(density(Clinical$cancer_age))
qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2)
Eu não tenho uma forte experiência em estatística, mas eles se parecem com exemplos de distribuições normais que eu já vi.
Então, eu estou executando o teste Shapiro-Wilk:
shapiro.test(Clinical$cancer_age)
> Shapiro-Wilk normality test
data: Clinical$cancer_age
W = 0.98775, p-value = 0.004952
Se eu interpretá-lo corretamente, ele me diz que é seguro rejeitar a hipótese nula, que é que a distribuição é normal.
No entanto, encontrei duas postagens de pilha ( aqui e aqui ), que minam fortemente a utilidade deste teste. Parece que se a amostra for grande (348 é considerada grande?), Sempre dirá que a distribuição não é normal.
Como devo interpretar tudo isso? Devo seguir o gráfico de QQ e assumir que minha distribuição é normal?
fonte
Respostas:
Você não tem um problema aqui. Seus dados podem estar um pouco fora do normal, mas é normal o suficiente para não causar problemas. Muitos pesquisadores fazem testes estatísticos assumindo normalidade com muito menos dados normais do que aqueles que você possui.
Eu confiaria nos seus olhos. As parcelas de densidade e QQ parecem razoáveis, apesar de alguma leve inclinação positiva nas caudas. Na minha opinião, você não precisa se preocupar com a não normalidade desses dados.
Você tem um N de cerca de 350 e os valores de p dependem muito do tamanho da amostra. Com uma amostra grande, quase tudo pode ser significativo. Isso foi discutido aqui.
Há algumas respostas incríveis nesse post muito popular que basicamente concluem que a realização de um teste de significância de hipótese nula para a não normalidade é "essencialmente inútil". A resposta aceita nesse post é uma demonstração fabulosa de que, mesmo quando os dados foram gerados a partir de um processo quase gaussiano, um tamanho de amostra alto o suficiente torna o teste não normal significativo.
Desculpe, percebi que estava vinculado a uma postagem que você mencionou na sua pergunta original. Minha conclusão ainda permanece, no entanto: seus dados não são tão incomuns que devem causar problemas.
fonte
Sua distribuição não é normal. Olhe para as caudas (ou a falta delas). Abaixo está o que você esperaria de um gráfico QQ normal.
Consulte este post sobre como interpretar vários gráficos de QQ.
Lembre-se de que, embora uma distribuição não seja tecnicamente normal, ela pode ser normal o suficiente para se qualificar para algoritmos que exigem normalidade.
fonte