Se meu histograma mostrar uma curva em forma de sino, posso dizer que meus dados são normalmente distribuídos?

11

Criei um histograma para Respondent Age e consegui obter uma curva em forma de sino muito agradável, a partir da qual concluí que a distribuição é normal.

Depois, executei o teste de normalidade no SPSS, com n = 169. O valor p (Sig.) Do teste de Kolmogorov-Smirnov é inferior a 0,05 e, portanto, os dados violaram a suposição de normalidade.

Por que o teste indica que a distribuição etária não é normal, mas o histograma mostrou curva em forma de sino, que pelo meu entendimento é normal? Qual resultado devo seguir?

NoraNorad
fonte
8
Por que você está testando a normalidade?
Glen_b -Reinstala Monica
6
Além do excelente comentário de @ Glen_b e da resposta igualmente excelente de Aksakal , observe que, mesmo para distribuições contínuas, a KS exige que a média e o sd sejam conhecidos antecipadamente , não estimados a partir dos dados. Isso essencialmente torna o teste KS inútil. "O teste de Kolmogorov-Smirnov é apenas uma curiosidade histórica. Ele nunca deve ser usado." (D'Agostino em d'Agostino & Stephens, eds., 1986). Se houver, use Shapiro-Wilks.
perfil completo de Stephan Kolassa
6
@ Stephan Kolassa Bom conselho, mas você quer dizer Shapiro-Wilk. (As sugestões de MB Wilk e SS Wilks são muitas vezes confusas ou conflitantes; o uso estranho de s como possessivo em inglês aqui também pode contribuir para a confusão, mesmo para muitos que têm o inglês como primeira língua.)
Nick Cox
2
Relacionado ao comentário de @StephanKolassa, consulte Shapiro-Wilk é o melhor teste de normalidade? ... a resposta é que não é necessariamente, dependendo da alternativa em que você está interessado, mas muitas vezes é uma boa escolha.
Silverfish

Respostas:

34

Geralmente sabemos que é impossível que uma variável seja exatamente distribuída normalmente ...

A distribuição normal possui caudas infinitamente longas, estendendo-se em qualquer direção - é improvável que os dados fiquem muito longe nesses extremos, mas para uma distribuição normal verdadeira, isso deve ser fisicamente possível. Por idades, um modelo normalmente distribuído irá prever que há uma probabilidade diferente de zero de dados situando 5 desvios padrão acima ou abaixo da média - o que corresponderia a idades fisicamente impossíveis, como abaixo de 0 ou acima de 150. (Embora se você olhar para uma pirâmide populacional , não está claro por que você esperaria que a idade fosse distribuída aproximadamente normalmente em primeiro lugar.) Da mesma forma, se você tivesse dados de altura, que intuitivamente poderiam seguir uma distribuição mais "normal", ela só poderia ser realmente normal se houver alguma chance de altura abaixo de 0 cm ou acima de 300 cm.

Ocasionalmente, vi sugerir que podemos evitar esse problema, centralizando os dados com média zero. Dessa forma, são possíveis "idades centradas" positivas e negativas. Mas, embora isso torne os valores negativos fisicamente plausíveis e interpretáveis ​​(valores centrados negativos correspondem a valores reais abaixo da média), não contorna o problema de que o modelo normal produzirá previsões fisicamente impossíveis com probabilidade diferente de zero, depois que você decodifique a "idade centralizada" modelada de volta para uma "idade real".

... então, por que se preocupar em testar? Mesmo que não seja exata, a normalidade ainda pode ser um modelo útil

A questão importante não é realmente se os dados são exatamente normais - sabemos a priori que não pode ser o caso, na maioria das situações, mesmo sem executar um teste de hipótese -, mas se a aproximação é suficientemente próxima para suas necessidades. Veja a pergunta: o teste de normalidade é essencialmente inútil? A distribuição normal é uma aproximação conveniente para muitos propósitos. Raramente é "correto" - mas geralmente não precisa ser exatamente correto para ser útil. Eu esperaria que a distribuição normal seja geralmente um modelo razoável para a altura das pessoas, mas exigiria um contexto mais incomum para a distribuição normal fazer sentido como um modelo da idade das pessoas.

Se você realmente sente a necessidade de realizar um teste de normalidade, Kolmogorov-Smirnov provavelmente não é a melhor opção: conforme observado nos comentários, testes mais poderosos estão disponíveis. Shapiro-Wilk tem bom poder contra uma variedade de alternativas possíveis e tem a vantagem de que você não precisa conhecer a verdadeira média e variação de antemão . Mas atenção: em amostras pequenas, desvios potencialmente muito grandes da normalidade ainda podem não ser detectados, enquanto em amostras grandes, mesmo desvios muito pequenos (e para fins práticos, irrelevantes) da normalidade provavelmente aparecerão como "altamente significativos" (baixo p -valor).

"Em forma de sino" não é necessariamente normal

Parece que lhe disseram para pensar em dados "em forma de sino" - dados simétricos que atingem o pico no meio e que têm menor probabilidade nas caudas - como "normais". Mas a distribuição normal requer uma forma específica para o seu pico e cauda. Existem outras distribuições com uma forma semelhante à primeira vista, que você também pode ter caracterizado como "em forma de sino", mas que não são normais. A menos que você tenha muitos dados, é improvável que você consiga distinguir que "ela se parece com essa distribuição pronta para uso, mas não com as outras". E se você tem um monte de dados, você provavelmente vai encontrá-lo não parece muito como qualquer distribuição "off-the-shelf" em tudo! Mas nesse caso, para muitos propósitos, você '

Galeria de distribuições "em forma de sino"

A distribuição normal é a "forma de sino" à qual você está acostumado; o Cauchy tem um pico mais nítido e caudas "mais pesadas" (isto é, contendo mais probabilidade); a distribuição t com 5 graus de liberdade fica em algum lugar no meio (o normal é t com df infinito e o Cauchy é t com 1 df, de modo que faz sentido); a distribuição Laplace ou dupla exponencial possui pdf formado a partir de duas distribuições exponenciais redimensionadas consecutivamente, resultando em um pico mais acentuado que a distribuição normal; a distribuição Betaé bem diferente - não possui caudas que partem para o infinito, por exemplo, ao invés de ter nítidos cortes - mas ainda pode ter a forma de "corcunda" no meio. Na verdade, brincando com os parâmetros, você também pode obter uma espécie de "corcunda distorcida" ou até uma forma de "U" - a galeria na página vinculada da Wikipedia é bastante instrutiva sobre a flexibilidade dessa distribuição. Por fim, a distribuição triangular é outra distribuição simples em um suporte finito, frequentemente usado na modelagem de riscos.

É provável que nenhuma dessas distribuições descreva exatamente seus dados, e existem muitas outras distribuições com formas semelhantes, mas eu queria abordar o equívoco de que "enrugado no meio e aproximadamente simétrico significa normal". Como existem limites físicos para os dados de idade, se os dados de idade estiverem "no caminho" no meio, ainda é possível uma distribuição com suporte finito como o Beta ou mesmo a distribuição triangular pode ser um modelo melhor do que aquele com caudas infinitas como o normal. Observe que, mesmo que seus dados realmente sejam normalmente distribuídos, é improvável que seu histograma se pareça com o "sino" clássico, a menos que o tamanho da amostra seja bastante grande. Mesmo uma amostra de uma distribuição como a Laplace, cujo pdf é claramente distinguível do normal devido à sua cúspide,

Amostras Normal e Laplace de vários tamanhos de amostra

Código R

par(mfrow=c(3,2))
plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)") 
plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy") 
plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df") 
plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)") 
plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)")
plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular")

par(mfrow=c(3,2))
normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")}
laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")}

# No random seed is set
# Re-run the code to see the variability in histograms you might expect from sample to sample
normalhist(50); laplacehist(50)
normalhist(100); laplacehist(100)
normalhist(200); laplacehist(200)
Silverfish
fonte
11

A idade não pode ser da distribuição normal. Pense logicamente: você não pode ter idade negativa, mas a distribuição normal permite números negativos.

Existem muitas distribuições em forma de sino por aí. Se algo parece em forma de sino, isso não significa que deve ser normal.

Não há como saber com certeza alguma coisa nas estatísticas, incluindo de qual distribuição os dados provêm. A forma é uma pista: a forma de sino é um argumento para a distribuição normal. Além disso, entender seus dados é muito importante. A variável como idade geralmente é distorcida, o que excluiria a normalidade. Como mencionado, a distribuição normal não tem limites, mas às vezes é usada para variáveis ​​limitadas. Por exemplo, se a idade média é de 20 anos e o desvio padrão é 1, a probabilidade de idade <17 ou> 23 é menor que 0,3%. Portanto, é possível que a distribuição normal possa ser uma boa aproximação .

Você pode tentar executar um teste estatístico de normalidade, como Jarque-Bera, que leva em consideração a distorção e curtose da amostra. A curtose pode ser importante em alguns casos. É muito importante em finanças, porque se você modelar os dados com distribuição normal, mas os dados forem de uma distribuição de gordura, poderá acabar subestimando os riscos e os preços dos ativos.

Ajudaria você a reportar algumas estatísticas descritivas ou um histograma dos seus dados de idade e altura, como média, variação, assimetria, curtose.

Aksakal
fonte
Obrigado por sua ajuda, você pode me dizer como saber que certos dados provêm da distribuição normal, por exemplo, na sua resposta afirmou que a idade não pode ser da distribuição normal, e quanto a outros dados como a altura.Quais são os critérios que devo know.i quero aprender mais sobre isso, porque parece que eu entendi errado o conceito, pois sou novo nisso.Thanks again.
NoraNorad
4
No entanto, a distribuição normal é frequentemente usada como uma aproximação para variáveis ​​como a idade. E isso não é realmente um problema, pois você pode definir age_centredcomo age - mean(age)e tem uma variável com média 0, com algum desvio padrão, valores positivos e negativos. Então, eu não seria tão rigoroso quanto a isso.
Tim
3
Você também não pode ter altura negativa para as pessoas, mas isso não seria uma barreira para mim descrever a altura como normalmente distribuída se essa fosse uma boa aproximação. Por esse motivo, por que usar qualquer distribuição com limites infinitos para medições que só podem ser finitas? Como o @Tim diz, é tudo uma questão de aproximações aceitáveis, dados os dados e a finalidade.
Nick Cox
1
Concordo que a distribuição normal às vezes pode ser uma boa aproximação para dados limitados, mas a questão era se os dados são normais ou não.
Aksakal
A idade de se formar no ensino médio pode potencialmente ser distribuída e também assumir valores negativos se a média for centrada como o @Tim mencionado.
Ui_90jax