Desvio padrão do desvio padrão

54

O que é um estimador do desvio padrão do desvio padrão se a normalidade dos dados puder ser assumida?

Ferdi
fonte
Suponho que você esteja procurando a distribuição da variação da amostra . Isso leva a uma seção na página da Wikipedia sobre variação em 16:55, 21 de agosto de 2016. Como este é um link para a Wikipedia, o artigo pode ser alterado no futuro. Portanto, a seção pode não refletir o conteúdo a que esta resposta se refere após essas alterações. Portanto, um link para uma versão histórica da página da Wikipedia é fornecido aqui. O artigo atual sobre variância é encontrado [aqui] ( en.wikipedia.org/wik

Respostas:

58

Seja . Conforme mostrado neste tópico , o desvio padrão do desvio padrão da amostra,X1,...,XnN(μ,σ2)

s=1n1i=1n(XiX¯),

é

SD(s)=E([E(s)s]2)=σ12n1(Γ(n/2)Γ(n12))2

onde é a função gama , é o tamanho da amostra e é a média da amostra. Como é um estimador consistente de , isso sugere substituir por na equação acima para obter um estimador consistente de .Γ()nX¯=1ni=1nXisσσsSD(s)

Se você procura um estimador imparcial, vemos neste tópico que , que, por linearidade de expectativa, sugereE(s)=σ2n1Γ(n/2)Γ(n12)

sn12Γ(n12)Γ(n/2)

como um estimador imparcial de . Tudo isso, juntamente com a linearidade da expectativa, fornece um estimador imparcial de : S D ( s )σSD(s)

sΓ(n12)Γ(n/2)n12(Γ(n/2)Γ(n12))2
Macro
fonte
12
+1 É bom ver não apenas uma resposta melhor aparecer depois de quase dois anos, mas uma resposta que fornece detalhes mais úteis do que as referências em outras partes deste segmento.
whuber
2
Você esqueceu de quadrado as distâncias na primeira fórmula?
danijar
2
É difícil calcular a função gama para valores não pequenos de . Aplicando a aproximação de Stirling, recebo , que é computacionalmente viável e também um pouco mais compacto em termos de expressão. s nse(11n)n11
Equaeghe
11
Provavelmente vale a pena apontar que s (calculado em resposta @ da Macro é por vezes referido como o erro padrão do desvio padrão da amostra.
Harvey Motulsky
Para quem deseja um formulário simples, é uma boa aproximação em um nível de poucos por cento. s/2(n1)
Syrtis Major
5

Suponha que você observe iid de um normal com zero médio e variação . O desvio padrão (empírico) é a raiz quadrada do estimador de (imparcial ou não, essa não é a questão). Como estimador (obtido com ), possui uma variação que pode ser calculada teoricamente. Talvez o que você chama de desvio padrão do desvio padrão seja na verdade a raiz quadrada da variação do desvio padrão, ou seja, ? Não é um estimador, é uma quantidade teórica (algo comoσ 2 σ 2 σ 2 X 1 , ... , X n σX1,,Xnσ2σ^2σ2X1,,Xnσ^ σ/E[(σσ^)2]σ/n para ser confirmado) que pode ser calculado explicitamente!

Robin Girard
fonte
Não é uma função do estimador ainda um estimador? Ainda não sei \ sigma, apenas X_i.
ok, então você possivelmente estimará a raiz quadrada da variação da estimativa da raiz quadrada da variação ... certo :) deve ser algo como ? σ^/n
robin Girard
O que Srikant encontrou (e o que parece confirmado no PhysicsForums) deve haver ; portanto, . σ2σ^22n
11
Aww, esses comentários travam; . Pelo menos este fornece o resultado de acordo com o bootstrap. σ^2n
-3

O @Macro forneceu uma ótima explicação matemática com a equação para calcular. Aqui está uma explicação mais geral para pessoas menos matemáticas.

Eu acho que a terminologia "SD of SD" é confusa para muitos. É mais fácil pensar no intervalo de confiança de um SD. Qual é a precisão do desvio padrão que você calcula de uma amostra? Por acaso, você pode obter dados agrupados, tornando o SD da amostra muito menor que o SD da população. Ou você pode obter valores aleatoriamente muito mais dispersos que a população em geral, tornando o SD da amostra maior que o SD da população.

A interpretação do IC do SD é simples. Comece com a suposição habitual de que seus dados foram amostrados aleatoriamente e independentemente de uma distribuição gaussiana. Agora repita essa amostragem várias vezes. Você espera que 95% desses intervalos de confiança incluam o verdadeiro DP da população.

Qual a largura do intervalo de confiança de 95% de um SD? Depende do tamanho da amostra (n), é claro.

n: IC95% de DP

2: 0,45 * DP a 31,9 * DP

3: 0,52 * SD para 6,29 * SD

5: 0,60 * SD para 2,87 * SD

10: 0,69 * SD para 1,83 * SD

25: 0,78 * SD a 1,39 * SD

50: 0,84 * SD para 1,25 * SD

100: 0,88 * SD para 1,16 * SD

500: 0,94 * SD para 1,07 * SD

Calculadora gratuita na web

Harvey Motulsky
fonte
Eu posso fazer Monte Carlo, eu só queria fazer de uma maneira mais 'científica'; ainda assim, você está certo de que a distribuição não é normal, portanto esse sd será inútil para testes.
4
Pelo que vale, não me sinto à vontade com a afirmação "um intervalo de confiança de 95% ... que provavelmente contenha o verdadeiro SD" (ou, declarado mais explicitamente na página vinculada: "você pode ter 95% de certeza de que o O IC calculado a partir da amostra SD contém a verdadeira população SD "). Eu acho que essas declarações flertam com o reforço de um equívoco popular, veja aqui , por exemplo, uma discussão relacionada ao CV.
gung - Restabelece Monica
5
O que é "eu acho que tanto o conceito quanto a terminologia de" SD of SD "são muito escorregadios para lidar com" supostamente significam? O desvio padrão da amostra é uma variável aleatória que possui um desvio padrão.
Macro
@Macro. Obrigado por seus comentários. Eu reescrevi substancialmente.
Harvey Motulsky
11
@gung. Reescrevi para explicar corretamente o intervalo de confiança.
Harvey Motulsky