Em um artigo, encontrei a fórmula para o desvio padrão de um tamanho de amostra
onde é o intervalo médio de subamostras (tamanho ) da amostra principal. Como o número é calculado? Esse é o número correto?
Em um artigo, encontrei a fórmula para o desvio padrão de um tamanho de amostra
onde é o intervalo médio de subamostras (tamanho ) da amostra principal. Como o número é calculado? Esse é o número correto?
Respostas:
Em uma amostra de n valores independentes de uma distribuição F com pdf f , o pdf da distribuição conjunta dos extremos min ( x ) = x [ 1 ] e max ( x ) = x [ n ] é proporcional ax n F f min(x)=x[1] max(x)=x[n]
(A constante de proporcionalidade é recíproca do coeficiente multinomial . Intuitivamente, este PDF conjunto expressa a chance de encontrar o menor valor no intervalo[x[1],x[1]+dx[1]), o maior valor no intervalo[x[n],x[n]+dx[n])(n1,n−2,1)=n(n−1) [x[1],x[1]+dx[1]) [x[n],x[n]+dx[n]) e os valores médios entre eles dentro do intervalo [ x [ 1 ] + d x [ 1 ] , x é contínuo, podemos substituir esse intervalo intermediário por ( x [ 1 ] , x [ n ] ] , negligenciando apenas uma quantidade "infinitesimal" de probabilidade. As probabilidades associadas, de primeira ordem nos diferenciais, são f ( x [ 1 ]n−2 . QuandoFd x [ 1 ] ,f( x [ n ] )d x [ n ][x[1]+dx[1],x[n]) F (x[1],x[n]] f(x[1])dx[1], e F ( x [ n ] ) - F ( x [ 1 ] ) ,f(x[n])dx[n], F(x[n])−F(x[1]), ., Respectivamente, agora tornando-se óbvio que a fórmula vem)
Tomando a expectativa do intervalo dá 2,53441 σ para qualquer distribuição normal com desvio padrão σ e n = 6 . O intervalo esperado como múltiplo de σ depende do tamanho da amostra n :x[n]−x[1] 2.53441 σ σ n=6 σ n
Esses valores foram calculados integrando numericamente sobre{(x,y)∈R2| x≤y}, comFdefinido no CDF normal padrão e dividido pelo desvio padrão deF(que é apenas1(n1,n−2,1)(y−x)HF(x,y)dxdy {(x,y)∈R2|x≤y} F F 1 ).
Uma relação multiplicativa semelhante entre o intervalo esperado e o desvio padrão será válida para qualquer família de distribuições em escala de localização, porque é uma propriedade apenas da forma da distribuição. Por exemplo, aqui está um gráfico comparável para distribuições uniformes:
e distribuições exponenciais:
Os valores nas duas parcelas anteriores foram obtidos por integração exata - não numérica -, o que é possível devido às formas algébricas relativamente simples de e F em cada caso. Para as distribuições uniformes, eles são iguais a n - 1f F n−1(n+1)12−−√ e para as distribuições exponenciais são ondeγé constante de Euler eψé a função "polygamma", a derivada logarítmica da função Gamma de Euler.γ+ψ(n)=γ+Γ′(n)Γ(n) γ ψ
Embora sejam diferentes (porque essas distribuições exibem uma ampla gama de formas), as três concordam aproximadamente em torno de , mostrando que o multiplicador 2,5 não depende muito da forma e, portanto, pode servir como uma avaliação abrangente e abrangente do desvio padrão quando faixas de pequenas subamostras são conhecidas. (De fato, o estudante de cauda muito pesadan=6 2.5 distribuição muito t de t com três graus de liberdade ainda tem um multiplicador em torno de 2,3 para n = 6 , não muito longe de 2,5 .)t 2.3 n=6 2.5
fonte
Essa aproximação está muito próxima do verdadeiro desvio padrão da amostra. Eu escrevi um script R rápido para ilustrá-lo:
que produz:
Agora não tenho certeza (ainda) por que isso funciona, mas pelo menos parece (pelo valor nominal) que a aproximação é decente.
Edit: Veja o comentário excepcional de @ Whuber (acima) sobre por que isso funciona
fonte
mean(R)/2.474
sd(x)
> mean(R)/2.474 [1] 2887.611