Relação entre a faixa e o desvio padrão

14

Em um artigo, encontrei a fórmula para o desvio padrão de um tamanho de amostra N

σ=R¯2.534

onde R¯ é o intervalo médio de subamostras (tamanho 6 ) da amostra principal. Como o número 2.534 é calculado? Esse é o número correto?

Andy
fonte
6
Referências por favor. Mais importante: 1. Não pode haver um "número correto" aqui independentemente do tipo de distribuição da qual você está desenhando. 2. Essas regras geralmente surgem do interesse em métodos de atalho para estimar o DS a partir da faixa. Agora temos computadores .... Você quer fazer isso e por quê? Por que não usar apenas os dados?
Nick Cox
3
@ Nick Desculpe: você estava correto. Um valor em torno de 4 funciona para o desvio padrão quando o tamanho da amostra está em torno de 15 a 50 ; 3 funciona para tamanhos de amostra em torno de 10 , etc. Excluirei meu comentário anterior para que não confunda ninguém além de mim!
whuber
1
@NickCox é fonte russa antiga e eu não vi a fórmula antes.
Andy
3
Dar referências raramente é uma má idéia. Deixe os leitores decidirem por si próprios se são interessantes ou acessíveis. (Há muitas pessoas aqui que podem ler russo, por exemplo.)
Nick Cox

Respostas:

17

Em uma amostra de n valores independentes de uma distribuição F com pdf f , o pdf da distribuição conjunta dos extremos min ( x ) = x [ 1 ] e max ( x ) = x [ n ] é proporcional axnFfmin(x)=x[1]max(x)=x[n]

f(x[1])(F(x[n])F(x[1]))n2f(x[n])dx[1]dx[n]=HF(x[1],x[n])dx[1]dx[n].

(A constante de proporcionalidade é recíproca do coeficiente multinomial . Intuitivamente, este PDF conjunto expressa a chance de encontrar o menor valor no intervalo[x[1],x[1]+dx[1]), o maior valor no intervalo[x[n],x[n]+dx[n])(n1,n2,1)=n(n1)[x[1],x[1]+dx[1])[x[n],x[n]+dx[n])e os valores médios entre eles dentro do intervalo [ x [ 1 ] + d x [ 1 ] , x é contínuo, podemos substituir esse intervalo intermediário por ( x [ 1 ] , x [ n ] ] , negligenciando apenas uma quantidade "infinitesimal" de probabilidade. As probabilidades associadas, de primeira ordem nos diferenciais, são f ( x [ 1 ]n2. QuandoFd x [ 1 ] ,f( x [ n ] )d x [ n ][x[1]+dx[1],x[n])F(x[1],x[n]]f(x[1])dx[1], e F ( x [ n ] ) - F ( x [ 1 ] ) ,f(x[n])dx[n],F(x[n])F(x[1]), ., Respectivamente, agora tornando-se óbvio que a fórmula vem)

Tomando a expectativa do intervalo 2,53441 σ para qualquer distribuição normal com desvio padrão σ e n = 6 . O intervalo esperado como múltiplo de σ depende do tamanho da amostra n :x[n]x[1]2.53441 σσn=6σn

Normal

Esses valores foram calculados integrando numericamente sobre{(x,y)R2| xy}, comFdefinido no CDF normal padrão e dividido pelo desvio padrão deF(que é apenas1(n1,n2,1)(yx)HF(x,y)dxdy{(x,y)R2|xy}FF1 ).

Uma relação multiplicativa semelhante entre o intervalo esperado e o desvio padrão será válida para qualquer família de distribuições em escala de localização, porque é uma propriedade apenas da forma da distribuição. Por exemplo, aqui está um gráfico comparável para distribuições uniformes:

Uniforme

e distribuições exponenciais:

Exponencial

Os valores nas duas parcelas anteriores foram obtidos por integração exata - não numérica -, o que é possível devido às formas algébricas relativamente simples de e F em cada caso. Para as distribuições uniformes, eles são iguais a n - 1fFn1(n+1)12 e para as distribuições exponenciais são ondeγé constante de Euler eψé a função "polygamma", a derivada logarítmica da função Gamma de Euler.γ+ψ(n)=γ+Γ(n)Γ(n)γψ

Embora sejam diferentes (porque essas distribuições exibem uma ampla gama de formas), as três concordam aproximadamente em torno de , mostrando que o multiplicador 2,5 não depende muito da forma e, portanto, pode servir como uma avaliação abrangente e abrangente do desvio padrão quando faixas de pequenas subamostras são conhecidas. (De fato, o estudante de cauda muito pesadan=62.5distribuição muito t de t com três graus de liberdade ainda tem um multiplicador em torno de 2,3 para n = 6 , não muito longe de 2,5 .)t2.3n=62.5

whuber
fonte
6
Exposição maravilhosa! Você pode estar interessado em saber que isso parece ter sido investigado na década de 1920. Veja Tippet 1925 . Nas tabelas de Tippet (Tabela X), o valor esperado para o intervalo, dado uma amostra do tamanho 6, é de . Ele mostra a derivação da distribuição completa do intervalo para a distribuição normal. Isso foi usado por David et.al. (1954) para calcular pontos de probabilidade da distribuição da faixa para um teste de normalidade (ver D'Agostino & Stephens 9.3.3.4.2). 2.53441σ
Avraham
@Avraham Obrigado pelos comentários esclarecedores. O que me impressionou quando adicionei os gráficos é que a parte mais inteligente de toda essa abordagem é o uso de subamostras de tamanho seis, porque é aí que todos os multiplicadores tendem a ser iguais, independentemente da forma distributiva.
whuber
Obrigado! As tabelas de Tippet na verdade fornecem o multiplicador apropriado para todos os números entre 2 e 1000. Ele menciona problemas de cálculo; claro, isso foi em 1925, uns bons 20 anos antes da ENIAC.
Avraham
@whuber você pode mostrar como o número (2.534) foi calculado?
Andy
Editei a resposta para incluir explicações sobre os cálculos.
whuber
4

Essa aproximação está muito próxima do verdadeiro desvio padrão da amostra. Eu escrevi um script R rápido para ilustrá-lo:

x = sample(1:10000,6000,replace=TRUE)

B = 100000
R = rep(NA,B)
for(i in 1:B){
    samp = sample(x,6)
    R[i] = max(samp)-min(samp)
}

mean(R)/2.534

sd(x)

que produz:

> mean(R)/2.534
[1] 2819.238
> 
> sd(x)
[1] 2880.924

Agora não tenho certeza (ainda) por que isso funciona, mas pelo menos parece (pelo valor nominal) que a aproximação é decente.

Edit: Veja o comentário excepcional de @ Whuber (acima) sobre por que isso funciona


fonte
1
6103/72.474mean(R)/2.4742887.6sd(x)
Muito verdadeiro! > mean(R)/2.474 [1] 2887.611