Eu plotei isso depois de fazer um teste de normalidade Shapiro-Wilk. O teste mostrou que é provável que a população esteja normalmente distribuída. No entanto, como ver esse "comportamento" nesse enredo?
ATUALIZAR
Um histograma simples dos dados:
ATUALIZAR
O teste de Shapiro-Wilk diz:
Respostas:
Não; não mostrou isso.
Os testes de hipótese não informam a probabilidade do nulo. Na verdade, você pode apostar que esse nulo é falso.
O gráfico QQ não fornece uma forte indicação de não normalidade (o gráfico é razoavelmente reto); talvez haja uma cauda esquerda ligeiramente mais curta do que você esperaria, mas isso realmente não importa muito.
O histograma como está provavelmente também não diz muito; também sugere uma cauda esquerda ligeiramente mais curta. Mas veja aqui
A distribuição populacional da qual seus dados são não será exatamente normal. No entanto, o gráfico QQ mostra que a normalidade é provavelmente uma aproximação razoavelmente boa.
Se o tamanho da amostra não fosse muito pequeno, provavelmente a falta de rejeição do Shapiro-Wilk estaria dizendo o mesmo.
Atualização: sua edição para incluir o valor real de Shapiro-Wilk é importante porque, de fato, isso indica que você rejeitaria o nulo em níveis significativos típicos. Esse teste indica que seus dados não são normalmente distribuídos e a assimetria leve indicada pelas plotagens é provavelmente o que está sendo detectado pelo teste. Para procedimentos típicos que podem assumir a normalidade da própria variável (o teste t de uma amostra é aquele que vem à mente), no que parece ser um tamanho de amostra razoavelmente grande, essa não normalidade moderada quase não terá consequências todos - um dos problemas com os testes de qualidade dos ajustes é mais provável que eles rejeitem exatamente quando não importa (quando o tamanho da amostra é grande o suficiente para detectar alguma modesta não normalidade); da mesma forma, é mais provável que deixem de rejeitar quando mais importa (quando o tamanho da amostra é pequeno).
fonte
Se os dados são normalmente distribuídos, os pontos no gráfico QQ-normal ficam em uma linha diagonal reta. Você pode adicionar essa linha ao gráfico de QQ com o comando
qqline(x)
, ondex
é o vetor de valores.Exemplos de distribuição normal e não normal:
Distribuição normal
O gráfico QQ-normal com a linha:
Os desvios da linha reta são mínimos. Isso indica distribuição normal.
O histograma:
Distribuição não-normal (gama)
O gráfico QQ-normal:
Os pontos seguem claramente outra forma além da linha reta.
O histograma confirma a não normalidade. A distribuição não tem a forma de sino, mas é inclinada positivamente (ou seja, a maioria dos pontos de dados está na metade inferior). Histogramas de distribuições normais mostram a maior frequência no centro da distribuição.
fonte
qqPlot
função nocar
pacote.Algumas ferramentas para verificar a validade da suposição de normalidade em R
fonte
Embora seja uma boa ideia verificar visualmente se sua intuição corresponde ao resultado de algum teste, você não pode esperar que isso seja fácil o tempo todo. Se as pessoas que tentam detectar o Bóson de Higgs confiariam apenas em seus resultados se pudessem avaliá-los visualmente, precisariam de um olho muito aguçado.
Especialmente com grandes conjuntos de dados (e, portanto, geralmente com poder crescente), as estatísticas tendem a captar a menor das diferenças, mesmo quando elas dificilmente são discerníveis a olho nu.
Dito isto: por normalidade, seu gráfico de QQ deve mostrar uma linha reta: eu diria que não. Existem curvas claras nas caudas e, mesmo perto do meio, há comoção. Visualmente, eu ainda posso estar disposto a dizer (dependendo do objetivo de verificar a normalidade) que esses dados são "razoavelmente" normais.
Observe no entanto: para a maioria dos propósitos em que você deseja verificar a normalidade, você precisa apenas da normalidade dos meios, em vez da normalidade das observações, portanto o teorema do limite central pode ser suficiente para resgatá-lo. Além disso: embora a normalidade seja frequentemente uma suposição de que você precisa verificar "oficialmente", muitos testes demonstraram ser bastante insensíveis a não ter essa suposição cumprida.
fonte
Gosto da versão do carro da biblioteca 'R' porque ela fornece não apenas a tendência central, mas também os intervalos de confiança. Fornece orientação visual para ajudar a confirmar se o comportamento dos dados é consistente com a distribuição hipotética.
alguns links:
fonte