Estou examinando uma parte do meu conjunto de dados contendo 46840 valores duplos, variando de 1 a 1690, agrupados em dois grupos. Para analisar as diferenças entre esses grupos, comecei examinando a distribuição dos valores para escolher o teste certo.
Seguindo um guia sobre testes de normalidade, fiz um qqplot, histograma e boxplot.
Isso não parece ser uma distribuição normal. Como o guia afirma um tanto corretamente que um exame puramente gráfico não é suficiente, também quero testar a distribuição quanto à normalidade.
Considerando o tamanho do conjunto de dados e a limitação do teste shapiro-wilks em R, como a distribuição fornecida deve ser testada quanto à normalidade e considerando o tamanho do conjunto de dados, isso é confiável? ( Veja a resposta aceita para esta pergunta )
Editar:
A limitação do teste de Shapiro-Wilk a que me refiro é que o conjunto de dados a ser testado é limitado a 5000 pontos. Para citar outra boa resposta sobre esse tópico:
Um problema adicional com o teste de Shapiro-Wilk é que, quando você fornece mais dados, as chances de a hipótese nula ser rejeitada se tornam maiores. Então, o que acontece é que, para grandes quantidades de dados, até desvios muito pequenos da normalidade podem ser detectados, levando à rejeição do evento de hipótese nula que, por motivos práticos, os dados são mais do que o normal o suficiente.
Felizmente, shapiro.test protege o usuário do efeito descrito acima, limitando o tamanho dos dados a 5000.
Quanto ao motivo pelo qual estou testando a distribuição normal em primeiro lugar:
Alguns testes de hipótese assumem a distribuição normal dos dados. Quero saber se posso ou não usar esses testes.
Respostas:
Não vejo por que você se incomodaria. Claramente não é normal - neste caso, o exame gráfico parece suficiente para mim. Você tem muitas observações do que parece ser uma boa distribuição gama limpa. Apenas vá com isso. kolmogorov-smirnov- lo se você deve - eu vou recomendar uma distribuição de referência.
x=rgamma(46840,2.13,.0085);qqnorm(x);qqline(x,col='red')
hist(rgamma(46840,2.13,.0085))
boxplot(rgamma(46840,2.13,.0085))
Como eu sempre digo: "Veja O teste de normalidade é 'essencialmente inútil'? ", Particularmente a resposta de MånsT , que aponta que diferentes análises têm diferentes sensibilidades a diferentes violações dos pressupostos de normalidade. Se sua distribuição é tão próxima da minha quanto parece, provavelmente você tem inclinação e curtose ("curtose excessiva" ). Isso pode ser um problema para muitos testes. Se você não puder encontrar apenas um teste com premissas paramétricas mais apropriadas ou nenhuma, talvez possa transformar seus dados ou pelo menos realizar uma análise de sensibilidade de qualquer análise que você tenha em mente.≈1.4 ≈5.9 ≈2.9
fonte