Testando grandes conjuntos de dados quanto à normalidade - como e é confiável?

12

Estou examinando uma parte do meu conjunto de dados contendo 46840 valores duplos, variando de 1 a 1690, agrupados em dois grupos. Para analisar as diferenças entre esses grupos, comecei examinando a distribuição dos valores para escolher o teste certo.

Seguindo um guia sobre testes de normalidade, fiz um qqplot, histograma e boxplot.

insira a descrição da imagem aqui

insira a descrição da imagem aqui insira a descrição da imagem aqui

Isso não parece ser uma distribuição normal. Como o guia afirma um tanto corretamente que um exame puramente gráfico não é suficiente, também quero testar a distribuição quanto à normalidade.

Considerando o tamanho do conjunto de dados e a limitação do teste shapiro-wilks em R, como a distribuição fornecida deve ser testada quanto à normalidade e considerando o tamanho do conjunto de dados, isso é confiável? ( Veja a resposta aceita para esta pergunta )

Editar:

A limitação do teste de Shapiro-Wilk a que me refiro é que o conjunto de dados a ser testado é limitado a 5000 pontos. Para citar outra boa resposta sobre esse tópico:

Um problema adicional com o teste de Shapiro-Wilk é que, quando você fornece mais dados, as chances de a hipótese nula ser rejeitada se tornam maiores. Então, o que acontece é que, para grandes quantidades de dados, até desvios muito pequenos da normalidade podem ser detectados, levando à rejeição do evento de hipótese nula que, por motivos práticos, os dados são mais do que o normal o suficiente.

Felizmente, shapiro.test protege o usuário do efeito descrito acima, limitando o tamanho dos dados a 5000.

Quanto ao motivo pelo qual estou testando a distribuição normal em primeiro lugar:

Alguns testes de hipótese assumem a distribuição normal dos dados. Quero saber se posso ou não usar esses testes.

deemel
fonte
11
Não há testes pontuais; a cada teste de qualquer uso, qualquer nível de significância razoável será claramente rejeitado. Qualquer guia que você esteja lendo o enganou. O que você quer dizer com 'confiável' exatamente. A que 'limitação' do Shapiro-Wilk você se refere? Eu quase concordaria com a afirmação na resposta que você vincula a ... "Nunca me deparei com uma situação em que um teste normal seja a coisa certa a fazer" (já vi pelo menos uma vez uma situação em que acho que é o coisa certa a se fazer, mas as pessoas quase sempre o fazem por motivos ruins).
Glen_b -Reinstala Monica
@Glen_b: aliás, eu me vi usando Shapiro – Wilk outro dia para quantificar as evidências contra o nulo, que alguém na Academia havia assumido por engano ser maior do que em uma amostra de notas. Gostaria de saber se isso foi defensável.
perfil completo de Nick Stauner
@NickStauner minha resposta ficou muito longa para um único comentário e não quero invadir esta pergunta com uma série de comentários sobre sua postagem lá. Possibilidades: conversamos no bate-papo, ou você posta uma pergunta sobre o assunto (na qual eu poderia postar uma resposta extensa), ou discutimos de outra maneira, como e-mail.
Glen_b -Reinstala Monica

Respostas:

14

Não vejo por que você se incomodaria. Claramente não é normal - neste caso, o exame gráfico parece suficiente para mim. Você tem muitas observações do que parece ser uma boa distribuição gama limpa. Apenas vá com isso. lo se você deve - eu vou recomendar uma distribuição de referência.

x=rgamma(46840,2.13,.0085);qqnorm(x);qqline(x,col='red')
insira a descrição da imagem aqui

hist(rgamma(46840,2.13,.0085))

boxplot(rgamma(46840,2.13,.0085))

Como eu sempre digo: "Veja O teste de normalidade é 'essencialmente inútil'? ", Particularmente a resposta de MånsT , que aponta que diferentes análises têm diferentes sensibilidades a diferentes violações dos pressupostos de normalidade. Se sua distribuição é tão próxima da minha quanto parece, provavelmente você tem inclinação e curtose ("curtose excessiva" ). Isso pode ser um problema para muitos testes. Se você não puder encontrar apenas um teste com premissas paramétricas mais apropriadas ou nenhuma, talvez possa transformar seus dados ou pelo menos realizar uma análise de sensibilidade de qualquer análise que você tenha em mente.1.45.92.9

Nick Stauner
fonte