Todos os 20 sujeitos têm a mesma altura se o desvio padrão da amostra for relatado como 0,0?

8

O estudo que estou analisando relata a altura média para 20 indivíduos com 1,70 metro, com um desvio padrão de 0,0. Isso significa que todos os 20 têm exatamente 1,70 metro? Ou isso é um erro de relatório?

Lee
fonte

Respostas:

16

De acordo com esta rosca SE da biologia , o desvio padrão da altura do adulto masculino é de cerca de 0.07 metros, e do sexo feminino é de cerca de 0.06 metros.

Arredondar para uma casa decimal daria 0.1 metro. O fato de o desvio padrão ser relatado como 0.0 metros indica um desvio padrão abaixo de 0.05 metros ... mas um desvio padrão de, digamos, 0.048 metros ainda seria consistente com o valor relatado, pois arredondaria para 0.0 , mas indicaria um variação nas alturas da amostra apenas ligeiramente menor que a variabilidade que observamos todos os dias na população em geral.

O número é bem relatado? Bem, seria muito mais útil se o desvio padrão tivesse sido relatado com duas casas decimais, como a média era. Também pode ser um erro numérico ou de arredondamento simples; por exemplo, poderia ter sido truncado para vez de arredondado . Mas seria possível que a figura se refira ao erro padrão? Costumo ver números escritos de uma maneira que torna ambíguo se um desvio padrão ou erro padrão está sendo citado - por exemplo, "a média da amostra é ".0,0 1,62 ( ± 0,06 )0.070.01.62(±0.06)


Quão plausível é o desvio padrão correto arredondar para a uma casa decimal? O código R a seguir simula um milhão de amostras do tamanho vinte retiradas de uma população de desvio padrão de (como já foi relatado em outros lugares para a altura da fêmea), localiza o desvio padrão para cada amostra, plota um histograma dos resultados e calcula a proporção de amostras em que o desvio padrão observado foi abaixo de :0,06 0,050.00.060.05

set.seed(123) #so uses same random numbers each time code is run
x <- replicate(1e6, sd(rnorm(20, sd=0.06)))
hist(x)
sum(x < 0.05)/1e6

[1] 0.170691

Histograma dos desvios padrão da amostra

Portanto, um desvio padrão que arredonda para não é implausível, ocorrendo cerca de dezessete por cento do tempo se as alturas são normalmente distribuídas com o desvio padrão verdadeiro de .0,060.00.06

Sujeito a essas premissas, também podemos calcular, em vez de simular, essa probabilidade em aproximadamente dezessete por cento, da seguinte forma:

P(S2<0.052)=P(19S20.062<19×0.0520.062)=P(19S20.062<13.194)=0.1715

onde usamos o fato de que segue a distribuição qui-quadrado com graus da liberdade. Você pode calcular a probabilidade em R usando ; se você substituir por , de acordo com os números publicados para desvios padrão masculinos, a probabilidade será reduzida para cerca de quatro por cento. Como o @whuber aponta nos comentários abaixo, é mais provável que esse tipo de pequeno SD "arredonda para zero" se o grupo amostrado for mais homogêneo do que a população em geral. Se o desvio padrão da população for de cerca de n - 1 = 19 0,06 0,07 0,06(n1)S2/σ2=19S2/0.062n1=19pchisq(q = 19*0.05^2/0.06^2, df = 19)0.060.070.06 metros, a probabilidade de obter um desvio padrão tão pequeno da amostra também teria diminuído se o tamanho da amostra fosse maior.

curve(pchisq(q = 19*0.05^2/x^2, df = 19), from=0.005, to=0.1,
      xlab="Population SD", ylab="Probability sample SD < 0.05 if n = 20")

A probabilidade de um SD baixo da amostra cai se o SD da população aumentar

curve(pchisq(q = (x-1)*0.05^2/0.06^2, df = x-1), from=2, to=50, ylim=c(0,0.6),
      xlab="Sample size", ylab="Probability sample SD < 0.05 if population SD = 0.06")

A probabilidade de um SD de amostra baixa cai se o tamanho da amostra aumentar

Silverfish
fonte
5
+1. Também é plausível que o estudo tenha sido de, digamos, um grupo de pessoas de uma população homogênea, como uma equipe esportiva, um grupo de líderes de torcida etc., nesse caso o DP muito bem poderia ter sido de 0,01m ou menos.
whuber
@whuber Nice point! Eu me perguntava o quão plausível poderia ser para o SD arredondar para 0,00 (ou seja, seja menor que 0,005) e fiquei surpreso com o quão rigorosas são as condições para isso. Provavelmente não deveria ter sido, pois realmente se resume ao cancelamento da proporção. Mas, por exemplo, se as líderes de torcida têm uma população de DP = 0,01, isso pchisq(q = 19*0.005^2/0.01^2, df = 19)fornece apenas 0,04% de probabilidade da amostra de DP <0,005. Mesmo a população DP = 0,008 fornece uma probabilidade de apenas 0,8%. Mas os SDs da população de 0,007, 0,006 e 0,005 fornecem probabilidades de 4%, 17% (sem coincidência!) E 54%, respectivamente
Silverfish
3
Eu posso imaginar algumas maneiras de obter muito pouca variação. Imagine uma condição que imponha uma altura mínima ou máxima - por exemplo, no passado, muitos exércitos impuseram uma altura máxima para a tripulação de seus tanques, por exemplo, ou alguns lugares tiveram uma altura mínima para a polícia. Se pegarmos o tripulante mais alto de cada pelotão de tanque (dada uma regra histórica típica de altura máxima, que geralmente fica bem abaixo da altura média) e encontrarmos o desvio padrão da amostra de suas alturas, ele tenderá a ser muito pequeno, porque essas alturas tenderão para ser preso contra a fronteira.
Glen_b -Reinstate Monica
Dado que nenhum idioma ou ferramenta foi especificado na pergunta, 0,0 não indica necessariamente arredondamento ou truncamento para uma casa decimal. 0.0 pode ser apenas como o idioma em questão exibe 0 como um número decimal / ponto flutuante (o que alguns idiomas exibem).
NotThatGuy
2

É quase certamente um erro de relatório, a menos que as pessoas tenham sido selecionadas por terem essa altura.

Peter Flom
fonte