Relação entre a faixa e o desvio padrão

Em uma amostra de valores independentes de uma distribuição com pdf , o pdf da distribuição conjunta dos extremos e é proporcional a $x$ $n$ $F$ $f$ $\min(x)=x_{[1]}$ $\max(x)=x_{[n]}$

f (x_{[1]}) {(F (x_{[n]}) - F (x_{[1]}))}^{n - 2} f (x_{[n]}) d x_{[1]} d x_{[n]} = H_{F} (x_{[1]}, x_{[n]}) d x_{[1]} d x_{[n]} .

$f(x_{[1]})\left(F(x_{[n]})-F(x_{[1]})\right)^{n-2}f(x_{[n]})dx_{[1]}dx_{[n]} = H_F(x_{[1]}, x_{[n]})dx_{[1]}dx_{[n]}.$

(A constante de proporcionalidade é recíproca do coeficiente multinomial . Intuitivamente, este PDF conjunto expressa a chance de encontrar o menor valor no intervalo, o maior valor no intervalo $\binom{n}{1,n-2,1} = n(n-1)$ $[x_{[1]},x_{[1]}+dx_{[1]})$ $[x_{[n]},x_{[n]}+dx_{[n]})$ e os valores médios entre eles dentro do intervalo é contínuo, podemos substituir esse intervalo intermediário por , negligenciando apenas uma quantidade "infinitesimal" de probabilidade. As probabilidades associadas, de primeira ordem nos diferenciais, são $n-2$ . Quando $[x_{[1]}+dx_{[1]}, x_{[n]})$ $F$ $(x_{[1]}, x_{[n]}]$ $f(x_{[1]})dx_{[1]},$ e $f(x_{[n]})dx_{[n]},$ $F(x_{[n]})-F(x_{[1]}),$ ., Respectivamente, agora tornando-se óbvio que a fórmula vem)

Tomando a expectativa do intervalo dá para qualquer distribuição normal com desvio padrão e . O intervalo esperado como múltiplo de depende do tamanho da amostra : $x_{[n]} - x_{[1]}$ $2.53441\ \sigma$ $\sigma$ $n=6$ $\sigma$ $n$

Normal

Esses valores foram calculados integrando numericamente sobre, comdefinido no CDF normal padrão e dividido pelo desvio padrão de(que é apenas $\binom{n}{1,n-2,1}\left(y-x\right)H_F(x,y)dxdy$ $\{(x,y)\in\mathbb{R}^2|x\le y\}$ $F$ $F$ $1$ ).

Uma relação multiplicativa semelhante entre o intervalo esperado e o desvio padrão será válida para qualquer família de distribuições em escala de localização, porque é uma propriedade apenas da forma da distribuição. Por exemplo, aqui está um gráfico comparável para distribuições uniformes:

Uniforme

e distribuições exponenciais:

Exponencial

Os valores nas duas parcelas anteriores foram obtidos por integração exata - não numérica -, o que é possível devido às formas algébricas relativamente simples de e em cada caso. Para as distribuições uniformes, eles são iguais a $f$ $F$ $\frac{n-1}{(n+1)}\sqrt{12}$ e para as distribuições exponenciais são ondeé constante de Euler eé a função "polygamma", a derivada logarítmica da função Gamma de Euler. $\gamma + \psi(n) = \gamma + \frac{\Gamma'(n)}{\Gamma(n)}$ $\gamma$ $\psi$

Embora sejam diferentes (porque essas distribuições exibem uma ampla gama de formas), as três concordam aproximadamente em torno de , mostrando que o multiplicador não depende muito da forma e, portanto, pode servir como uma avaliação abrangente e abrangente do desvio padrão quando faixas de pequenas subamostras são conhecidas. (De fato, o estudante de cauda muito pesada $n=6$ $2.5$ distribuição muito com três graus de liberdade ainda tem um multiplicador em torno de para , não muito longe de .) $t$ $2.3$ $n=6$ $2.5$

whuber
fonte

Exposição maravilhosa! Você pode estar interessado em saber que isso parece ter sido investigado na década de 1920. Veja Tippet 1925 . Nas tabelas de Tippet (Tabela X), o valor esperado para o intervalo, dado uma amostra do tamanho 6, é de

. Ele mostra a derivação da distribuição completa do intervalo para a distribuição normal. Isso foi usado por David et.al. (1954) para calcular pontos de probabilidade da distribuição da faixa para um teste de normalidade (ver D'Agostino & Stephens 9.3.3.4.2).

2.53441 σ

$2.53441\sigma$

Avraham

@Avraham Obrigado pelos comentários esclarecedores. O que me impressionou quando adicionei os gráficos é que a parte mais inteligente de toda essa abordagem é o uso de subamostras de tamanho seis, porque é aí que todos os multiplicadores tendem a ser iguais, independentemente da forma distributiva.

whuber

Obrigado! As tabelas de Tippet na verdade fornecem o multiplicador apropriado para todos os números entre 2 e 1000. Ele menciona problemas de cálculo; claro, isso foi em 1925, uns bons 20 anos antes da ENIAC.

Avraham

@whuber você pode mostrar como o número (2.534) foi calculado?

Andy

Editei a resposta para incluir explicações sobre os cálculos.

whuber

Relação entre a faixa e o desvio padrão

Respostas: