O desvio padrão pode ser calculado para a média harmônica?

12

O desvio padrão pode ser calculado para a média harmônica? Entendo que o desvio padrão pode ser calculado para a média aritmética, mas se você tiver uma média harmônica, como você calcula o desvio padrão ou o CV?

kjetil b halvorsen
fonte

Respostas:

13

A média harmônica das variáveis ​​aleatórias é definida comoHX1,...,Xn

H=11ni=1n1Xi

Tendo momentos de frações é um negócio sujo, então ao invés eu preferiria trabalhar com o . Agora1/H

1H=1ni=1n1Xi
.

Usando o teorema do limite central, obtemos imediatamente esse

n(H1EX11)N(0,VarX11)

se, é claro, VarX11< e Xi são iid, já que trabalhamos com a média aritmética das variáveis Yi=Xi1 .

Agora, usando o método delta para a função , obtemos esseg(x)=x1

n(H(EX11)1)N(0,VarX11(EX11)4)

Esse resultado é assintótico, mas para aplicações simples pode ser suficiente.

Atualizar Como o @whuber aponta com razão, aplicativos simples são um nome impróprio. O teorema do limite central é válido apenas se existe, o que é uma suposição bastante restritiva.VarX11

Atualização 2 Se você tiver uma amostra, para calcular o desvio padrão, basta conectar os momentos da amostra à fórmula. Portanto, para a amostra , a estimativa da média harmônica éX1,...,Xn

H^=11ni=1n1Xi

os momentos de amostra e respectivamente são:EX11Var(X11)

μ^R=1ni=1n1Xiσ^R2=1ni=1n(1XiμR)2

aqui significa recíproco.R

Finalmente, a fórmula aproximada para o desvio padrão de éH^

sd(H^)=σ^R2nμ^R4

Fiz algumas simulações de Monte-Carlo para variáveis ​​aleatórias distribuídas uniformemente em intervalo . Aqui está o código:[2,3]

hm <- function(x)1/mean(1/x)
sdhm <- function(x)sqrt((mean(1/x))^(-4)*var(1/x)/length(x))

n<-1000

nn <- c(10,30,50,100,500,1000,5000,10000)

N<-1000

mc<-foreach(n=nn,.combine=rbind) %do% {

    rr <- matrix(runif(n*N,min=2,max=3),nrow=N)

    c(n,mean(apply(rr,1,sdhm)),sd(apply(rr,1,sdhm)),sd(apply(rr,1,hm)))

}
colnames(mc) <- c("n","DeltaSD","sdDeltaSD","trueSD")

> mc
             n     DeltaSD    sdDeltaSD      trueSD
result.1    10 0.089879211 1.528423e-02 0.091677622
result.2    30 0.052870477 4.629262e-03 0.051738941
result.3    50 0.040915607 2.705137e-03 0.040257673
result.4   100 0.029017031 1.407511e-03 0.028284458
result.5   500 0.012959582 2.750145e-04 0.013200580
result.6  1000 0.009139193 1.357630e-04 0.009115592
result.7  5000 0.004094048 2.685633e-05 0.004070593
result.8 10000 0.002894254 1.339128e-05 0.002964259

Simulei Namostras da namostra dimensionada. Para cada namostra dimensionada, calculei a estimativa da estimativa padrão (função sdhm). Em seguida, comparo a média e o desvio padrão dessas estimativas com o desvio padrão da amostra da média harmônica estimada para cada amostra, que supostamente deve ser o verdadeiro desvio padrão da média harmônica.

Como você pode ver, os resultados são muito bons, mesmo para tamanhos de amostra moderados. É claro que a distribuição uniforme é muito bem comportada, portanto, não surpreende que os resultados sejam bons. Vou deixar para outra pessoa investigar o comportamento de outras distribuições, o código é muito fácil de adaptar.

Nota: Na versão anterior desta resposta, ocorreu um erro no resultado do método delta, variação incorreta.

mpiktas
fonte
2
@mpiktas Este é um bom começo e fornece algumas orientações quando o CV está baixo. Mas, mesmo em situações práticas e simples, não está claro que o CLT se aplica. Eu esperaria que os recíprocos de muitas variáveis ​​não tivessem segundos ou mesmo primeiros momentos finitos, quando houvesse uma probabilidade considerável de que seus valores estivessem próximos de zero. Eu também esperaria que o método delta não se aplicasse devido às derivações potencialmente grandes do recíproco próximo de zero. Assim, poderia ajudar a caracterizar com mais precisão os "aplicativos simples" onde seu método poderia funcionar. BTW, o que é "D"?
whuber
@ whuber, D é para variação, . Por aplicações simples, eu quis dizer aquelas para as quais existe variação e média de recíproco. Como você diz para variáveis ​​aleatórias com probabilidade considerável de que seus valores possam estar próximos de zero, recíproco pode até não ter média. Mas então a resposta à pergunta original é não. Eu assumi que o OP perguntou se é possível calcular o desvio padrão quando ele existe. Claramente isso não ocorre para muitas variáveis ​​aleatórias. DX=E(XEX)2
mpiktas
@ whuber, BTW por curiosidade é uma notação bastante padrão para mim, mas pode-se dizer que eu venho da escola de probabilidade russa. Não é tão comum no "oeste capitalista"? :)DX
mpiktas
@mpiktas Eu nunca vi essa notação de variação. Minha primeira reação foi que é um operador diferencial! As notações padrão são mnemônicas, como . DVar[X]
whuber
1
O artigo "Distribuições Invertidas" de EL Lehmann e Juliet Popper Shaffer é uma leitura interessante sobre distribuições de variáveis ​​aleatórias invertidas.
emakalic
2

Minha resposta a uma pergunta relacionada aponta que a média harmônica de um conjunto de dados positivos é uma estimativa de mínimos quadrados ponderados (WLS) (com pesos ). Portanto, você pode calcular seu erro padrão usando os métodos WLS. Isso tem algumas vantagens, incluindo simplicidade, generalidade e interpretabilidade, além de ser produzido automaticamente por qualquer software estatístico que permita pesos em seu cálculo de regressão.xi1/xi

A principal desvantagem é que o cálculo não produz bons intervalos de confiança para distribuições subjacentes altamente distorcidas. Provavelmente, esse é um problema com qualquer método de uso geral: a média harmônica é sensível à presença de um único valor minúsculo no conjunto de dados.

Para ilustrar, aqui estão distribuições empíricas de amostras geradas independentemente, de tamanho partir de uma distribuição Gamma (5) (que é modestamente inclinada). As linhas azuis mostram a média harmônica verdadeira (igual a ), enquanto as linhas tracejadas vermelhas mostram as estimativas dos mínimos quadrados ponderados. As faixas cinzas verticais ao redor das linhas azuis são intervalos de confiança aproximados de 95% nos dois lados para a média harmônica. Nesse caso, em todas as amostras, o IC cobre a verdadeira média harmônica. Repetições desta simulação (com sementes aleatórias) sugerem que a cobertura é próxima da taxa de 95% pretendida, mesmo para esses pequenos conjuntos de dados.20n=12420

Figuras

Aqui está o Rcódigo para a simulação e figuras.

k <- 5             # Gamma parameter
n <- 12            # Sample size
hm <- k-1          # True harmonic mean
set.seed(17)

t.crit <- -qt(0.05/2, n-1)
par(mfrow=c(4, 5))
for(i in 1:20) {
  #
  # Generate a random sample.
  #
  x <- rgamma(n, k)
  #
  # Estimate the harmonic mean.
  #
  fit <- lm(x ~ 1, weights=1/x)
  beta <- coef(summary(fit))[1, ]
  message("Harmonic mean estimate is ", signif(beta["Estimate"], 3), 
          " +/- ", signif(beta["Std. Error"], 3))
  #
  # Plot the results.
  #
  covers <- abs(beta["Estimate"] - hm) <= t.crit*beta["Std. Error"]
  plot(ecdf(x), main="Empirical CDF", sub=ifelse(covers, "", "***"))
  rect(beta["Estimate"] - t.crit*beta["Std. Error"], 0, 
       beta["Estimate"] + t.crit*beta["Std. Error"], 1.25, 
       border=NA, col=gray(0.5, alpha=0.10))
  abline(v = hm, col="Blue", lwd=2)
  abline(v = beta["Estimate"], col="Red", lty=3, lwd=2)
}
whuber
fonte
1

Aqui está um exemplo para r.v exponencial.

A média harmônica para pontos de dados é definida comon

S=11ni=1nXi

Suponha que você tenha amostras IID uma variável aleatória exponencial, . A soma de variáveis ​​exponenciais segue uma distribuição gamanXiExp(λ)n

i=1nXiGamma(n,θ)

onde . Também sabemos queθ=1λ

1nGamma(n,θ)Gamma(n,θn)

A distribuição de é, portanto,S

SInvGamma(n,nθ)

A variação (e desvio padrão) deste rv é bem conhecida, veja, por exemplo, aqui .

emakalic
fonte
3
sua definição de média harmônica não concorda com a wikipedia
mpiktas 22/02
Usar exponenciais é uma boa abordagem para entender o problema.
whuber
1
Toda a esperança não está totalmente perdida. Se Xi ~ Exp (\ lambda), então Xi ~ Gamma (1, \ lambda), então 1 / Xi ~ InvGamma (1, 1 / \ lambda). Então use "V. Witkovsky (2001) Computando a distribuição de uma combinação linear de variáveis ​​gama invertidas, Kybernetika 37 (1), 79-90" e veja até onde você chega!
Tristan
0

Há alguma preocupação de que a CLT das mpiktas requer uma variação limitada em . É verdade que tem rabos malucos quando tem densidade positiva em torno de zero. No entanto, em muitas aplicações usando a média harmônica, . Aqui, é limitado por , fornecendo todos os momentos que você deseja!1/X1/XXX11/X1

karl
fonte
0

O que eu sugeriria é usar a fórmula a seguir como substituto do desvio padrão:

σ=Ni=1N(1x^1xi)2,

onde . O bom dessa fórmula é que ela é minimizada quando e possui as mesmas unidades que o desvio padrão teria (que são as mesmas unidades que possui). x=Nx^=N1xi xx^=N1xix

Isso está em analogia com o desvio padrão, que é o valor que assume quando é minimizado em . É minimizado quando é a média: .xxx=μ=11N(x^xi)2x^x^x^=μ=1Nxi

Gil Wolff
fonte