Como posso encontrar o desvio padrão do desvio padrão da amostra de uma distribuição normal?

11

Perdoe-me se eu perdi algo bastante óbvio.

Sou físico com o que é essencialmente uma distribuição (histograma) centrada em um valor médio que se aproxima de uma distribuição Normal. O valor importante para mim é o desvio padrão dessa variável aleatória gaussiana. Como eu tentaria encontrar o erro no desvio padrão da amostra? Eu tenho a sensação de que tem algo a ver com o erro em cada posição no histograma original.

bronzeado
fonte
Uma dica é fornecida em stats.stackexchange.com/questions/26924 . Em geral, o erro de amostragem de uma variância pode ser calculado em termos dos quatro primeiros momentos da distribuição e, portanto, o erro de amostragem do DP pode ser estimado pelo menos a partir desses momentos.
whuber

Respostas:

12

Parece que você está solicitando um cálculo do desvio padrão do desvio padrão da amostra. Ou seja, você está solicitando , em queSD(s)=var(s)

s=1n1i=1n(XiX¯),

X1,...,XnN(μ,σ2) e é a média da amostra.X¯

Primeiro, sabemos pelas propriedades básicas da variação que

var(s)=E(s2)E(s)2

Como a variação da amostra é imparcial, sabemos que . Em Por que o desvio padrão da amostra é um estimador enviesado de ? , é calculado, a partir do qual podemos inferirσ E ( s )E(s2)=σ2σE(s)

E(s)2=2σ2n1(Γ(n/2)Γ(n12))2

Portanto

SD(s)=E(s2)E(s)2=σ12n1(Γ(n/2)Γ(n12))2
Macro
fonte
Bom ponto. Eu tenho uma estimativa da variância de s ^ 2. A raiz quadrada fornece uma estimativa do desvio padrão de s ^ 2. Mas você respondeu à pergunta real que era obter o desvio padrão de s. Suponho que, por razões práticas, você também substitua σ por s para obter uma estimativa usando a fórmula.
Michael R. Chernick 8/12
Sim, está certo, você pode substituir por e essa aproximação funciona bem mesmo para tamanhos de amostra modestos - eu fiz alguns testes com . s n = 20σsn=20
Macro
11

A quantidade tem uma distribuição qui-quadrado com graus de liberdade quando as amostras são independentes e distribuídas com a mesma distribuição normal Essa quantidade pode ser usada para obter confiança intervalos para a variação do normal e seu desvio padrão. Se você tiver os valores brutos e não apenas o valor central dos compartimentos, poderá calcular . n - 1 s 2X=(n1)s2/σ2n1s2

Sabe-se que se tem uma distribuição qui-quadrado com graus de liberdade, sua variância é . Sabendo disso e do fato de que obtemos que tem uma variação igual a Embora seja desconhecido, você pode aproximar por e você tem uma idéia aproximada de qual é a variação de .n - 1 2 ( n - 1 ) V a r ( c X ) = c 2 V a r ( X ) s 2 2 ( n - 1 ) σ 4Xn12(n1)Var(cX)=c2Var(X)s2

2(n1)σ4(n1)2=2σ4n1.
σ4s4s2
Michael R. Chernick
fonte
Eu ia postar isso no começo, mas o problema que eu vejo aqui é que é desconhecido. Dado esse fato, não sei se é válido aproximar-se de se nem sabemos o tamanho da amostra. Lembro que se pode mostrar que o quarto momento pode ter sérios problemas com valores extremos. σ2s4σ4
Néstor
s4 é um estimador consistente de (desde que exista ), certo @Nesp? Eu acho que isso é geralmente o que se quer dizer quando as pessoas dizem "aproximado" ou "idéia grosseira". σ4σ4
Macro
2
Talvez seja a falta de sono, mas não é esse o raciocínio circular?
Néstor
Assumimos desde o início que os dados vieram de uma distribuição normal, para que não haja nenhum problema externo. Eu quis dizer duro da maneira que Macro sugere. Concordo que o tamanho da amostra afeta a proximidade de s ^ 4 de σ ^ 4. Mas a preocupação com discrepâncias está fora da base da Nesp. Se você me criticou por isso, acho muito injusto. O que apresentei foi a maneira padrão de estimar o desvio padrão para s ^ 2 quando os dados são NORMALMENTE DISTRIBUÍDOS.
Michael R. Chernick
@Nesp, Michael forneceu um estimador consistente da variação do desvio padrão da amostra em relação a uma amostra normalmente distribuída - para amostras grandes, será bom - simule e descubra. Não sei por que você acha que esse é um raciocínio circular.
Macro
7

Existem várias maneiras de quantificar o erro do desvio padrão no caso normal. Vou apresentar a probabilidade de perfil de que pode ser usada para aproximar os intervalos de confiança.σ

Seja uma amostra de um Normal . A função de probabilidade correspondente é dada porx=(x1,...,xn)(μ,σ)

L(μ,σ)1σnexp(12σ2j=1n(xjμ)2)

Então, os estimadores de máxima verossimilhança são dados por , onde . Como você está interessado em quantificar o erro no , é possível calcular a probabilidade de perfil normalizado desse parâmetro da seguinte maneira.(μ^,σ^)=(x¯,s)s=1nj=1n(xjx¯)2σ

Rp(σ)=supμL(μ,σ)L(μ^,σ^)=(σ^σ)nexp[n2(1(σ^σ)2)]

Observe que . Um intervalo de nível possui uma confiança aproximada de . Em seguida, anexo um código que pode ser usado para calcular esses intervalos. Você pode modificá-lo de acordo com o seu contexto (ou se você postar os dados, posso incluir essas alterações).0,147 0,95 RRp:R+(0,1]0.1470.95R

data = rnorm(30)
n = length(data)
sg = sqrt(mean((data-mean(data))^2))
# Profile likelihood
rp = function(sigma) return( (sg/sigma)^n*exp(0.5*n*(1-(sg/sigma)^2))  )
vec = rvec = seq(0.5,1.5,0.01)
for(i in 1:length(rvec)) rvec[i] = rp(vec[i])
plot(vec,rvec,type="l")
rpc = function(sigma) return(rp(sigma)-0.147)
# Approximate 95% confidence interval
c(uniroot(rpc,c(0.7,0.8))$root,uniroot(rpc,c(1.1,1.3))$root)

Uma vantagem desse tipo de intervalo é que eles são invariantes sob transformações. Nesse caso, se você calcular um intervalo para , , o intervalo correspondente para será simplesmente .I = ( L , U ) σ 2 I = ( L 2 , U 2 )σI=(L,U)σ2I=(L2,U2)


fonte
Eu acho que ele realmente só queria o desvio padrão de s.
Michael R. Chernick