O desvio padrão pode ser calculado para a média harmônica?

12

O desvio padrão pode ser calculado para a média harmônica? Entendo que o desvio padrão pode ser calculado para a média aritmética, mas se você tiver uma média harmônica, como você calcula o desvio padrão ou o CV?

standard-deviation harmonic-mean kjetil b halvorsen
fonte

13

A média harmônica das variáveis aleatórias é definida como $H$ $X_1,...,X_n$

H = \frac{1}{\frac{1}{n} \sum_{i = 1}^{n} \frac{1}{X_{i}}}

$H=\frac{1}{\frac{1}{n}\sum_{i=1}^n\frac{1}{X_i}}$

Tendo momentos de frações é um negócio sujo, então ao invés eu preferiria trabalhar com o . Agora $1/H$

\frac{1}{H} = \frac{1}{n} \sum_{i = 1}^{n} \frac{1}{X_{i}}

$\frac{1}{H}=\frac{1}{n}\sum_{i=1}^n\frac{1}{X_i}$ .

Usando o teorema do limite central, obtemos imediatamente esse

\sqrt{n} (H^{- 1} - E X_{1}^{- 1}) \to N (0, V a r X_{1}^{- 1})

$\sqrt{n}\left(H^{-1}-EX_1^{-1}\right)\to N(0,VarX_1^{-1})$

se, é claro, $VarX_1^{-1}<\infty$ e $X_i$ são iid, já que trabalhamos com a média aritmética das variáveis $Y_i=X_i^{-1}$ .

Agora, usando o método delta para a função , obtemos esse $g(x)=x^{-1}$

\sqrt{n} (H - (E X_{1}^{- 1})^{- 1}) \to N (0, \frac{V a r X_{1}^{- 1}}{(E X_{1}^{- 1})^{4}})

$\sqrt{n}(H-(EX_1^{-1})^{-1})\to N\left(0, \frac{VarX_1^{-1}}{(EX_1^{-1})^4}\right)$

Esse resultado é assintótico, mas para aplicações simples pode ser suficiente.

Atualizar Como o @whuber aponta com razão, aplicativos simples são um nome impróprio. O teorema do limite central é válido apenas se existe, o que é uma suposição bastante restritiva. $VarX_1^{-1}$

Atualização 2 Se você tiver uma amostra, para calcular o desvio padrão, basta conectar os momentos da amostra à fórmula. Portanto, para a amostra , a estimativa da média harmônica é $X_1,...,X_n$

\begin{aligned} \hat{H} = \frac{1}{\frac{1}{n} \sum_{i = 1}^{n} \frac{1}{X_{i}}} \end{aligned}

$\begin{align} \hat{H}=\frac{1}{\frac{1}{n}\sum_{i=1}^n\frac{1}{X_i}} \end{align}$

os momentos de amostra e respectivamente são: $EX_1^{-1}$ $Var(X_1^{-1})$

\begin{aligned} {\hat{μ}}_{R} & = \frac{1}{n} \sum_{i = 1}^{n} \frac{1}{X_{i}} \\ {\hat{σ}}_{R}^{2} & = \frac{1}{n} \sum_{i = 1}^{n} {(\frac{1}{X_{i}} - μ_{R})}^{2} \end{aligned}

$\begin{align} \hat{\mu}_{R}&=\frac{1}{n}\sum_{i=1}^n\frac{1}{X_i}\\\\ \hat{\sigma}_{R}^2&=\frac{1}{n}\sum_{i=1}^n\left(\frac{1}{X_i}-\mu_R\right)^2 \end{align}$

aqui significa recíproco. $R$

Finalmente, a fórmula aproximada para o desvio padrão de é $\hat{H}$

\begin{aligned} s d (\hat{H}) = \sqrt{\frac{{\hat{σ}}_{R}^{2}}{n {\hat{μ}}_{R}^{4}}} \end{aligned}

$\begin{align*} sd(\hat{H})=\sqrt{\frac{\hat{\sigma}_R^2}{n\hat{\mu}_R^4}} \end{align*}$

Fiz algumas simulações de Monte-Carlo para variáveis aleatórias distribuídas uniformemente em intervalo . Aqui está o código: $[2,3]$

hm <- function(x)1/mean(1/x)
sdhm <- function(x)sqrt((mean(1/x))^(-4)*var(1/x)/length(x))

n<-1000

nn <- c(10,30,50,100,500,1000,5000,10000)

N<-1000

mc<-foreach(n=nn,.combine=rbind) %do% {

    rr <- matrix(runif(n*N,min=2,max=3),nrow=N)

    c(n,mean(apply(rr,1,sdhm)),sd(apply(rr,1,sdhm)),sd(apply(rr,1,hm)))

}
colnames(mc) <- c("n","DeltaSD","sdDeltaSD","trueSD")

> mc
             n     DeltaSD    sdDeltaSD      trueSD
result.1    10 0.089879211 1.528423e-02 0.091677622
result.2    30 0.052870477 4.629262e-03 0.051738941
result.3    50 0.040915607 2.705137e-03 0.040257673
result.4   100 0.029017031 1.407511e-03 0.028284458
result.5   500 0.012959582 2.750145e-04 0.013200580
result.6  1000 0.009139193 1.357630e-04 0.009115592
result.7  5000 0.004094048 2.685633e-05 0.004070593
result.8 10000 0.002894254 1.339128e-05 0.002964259

Simulei Namostras da namostra dimensionada. Para cada namostra dimensionada, calculei a estimativa da estimativa padrão (função sdhm). Em seguida, comparo a média e o desvio padrão dessas estimativas com o desvio padrão da amostra da média harmônica estimada para cada amostra, que supostamente deve ser o verdadeiro desvio padrão da média harmônica.

Como você pode ver, os resultados são muito bons, mesmo para tamanhos de amostra moderados. É claro que a distribuição uniforme é muito bem comportada, portanto, não surpreende que os resultados sejam bons. Vou deixar para outra pessoa investigar o comportamento de outras distribuições, o código é muito fácil de adaptar.

Nota: Na versão anterior desta resposta, ocorreu um erro no resultado do método delta, variação incorreta.

mpiktas
fonte

2

@mpiktas Este é um bom começo e fornece algumas orientações quando o CV está baixo. Mas, mesmo em situações práticas e simples, não está claro que o CLT se aplica. Eu esperaria que os recíprocos de muitas variáveis não tivessem segundos ou mesmo primeiros momentos finitos, quando houvesse uma probabilidade considerável de que seus valores estivessem próximos de zero. Eu também esperaria que o método delta não se aplicasse devido às derivações potencialmente grandes do recíproco próximo de zero. Assim, poderia ajudar a caracterizar com mais precisão os "aplicativos simples" onde seu método poderia funcionar. BTW, o que é "D"?

whuber

@ whuber, D é para variação, . Por aplicações simples, eu quis dizer aquelas para as quais existe variação e média de recíproco. Como você diz para variáveis aleatórias com probabilidade considerável de que seus valores possam estar próximos de zero, recíproco pode até não ter média. Mas então a resposta à pergunta original é não. Eu assumi que o OP perguntou se é possível calcular o desvio padrão quando ele existe. Claramente isso não ocorre para muitas variáveis aleatórias.

D X = E (X - E X)^{2}

$DX=E(X-EX)^2$

mpiktas

@ whuber, BTW por curiosidade é uma notação bastante padrão para mim, mas pode-se dizer que eu venho da escola de probabilidade russa. Não é tão comum no "oeste capitalista"? :)

D X

$DX$

mpiktas

@mpiktas Eu nunca vi essa notação de variação. Minha primeira reação foi que é um operador diferencial! As notações padrão são mnemônicas, como .

D

$D$

V a r [X]

$Var[X]$

whuber

1

O artigo "Distribuições Invertidas" de EL Lehmann e Juliet Popper Shaffer é uma leitura interessante sobre distribuições de variáveis aleatórias invertidas.

emakalic

2

Minha resposta a uma pergunta relacionada aponta que a média harmônica de um conjunto de dados positivos é uma estimativa de mínimos quadrados ponderados (WLS) (com pesos ). Portanto, você pode calcular seu erro padrão usando os métodos WLS. Isso tem algumas vantagens, incluindo simplicidade, generalidade e interpretabilidade, além de ser produzido automaticamente por qualquer software estatístico que permita pesos em seu cálculo de regressão. $x_i$ $1/x_i$

A principal desvantagem é que o cálculo não produz bons intervalos de confiança para distribuições subjacentes altamente distorcidas. Provavelmente, esse é um problema com qualquer método de uso geral: a média harmônica é sensível à presença de um único valor minúsculo no conjunto de dados.

Para ilustrar, aqui estão distribuições empíricas de amostras geradas independentemente, de tamanho partir de uma distribuição Gamma (5) (que é modestamente inclinada). As linhas azuis mostram a média harmônica verdadeira (igual a ), enquanto as linhas tracejadas vermelhas mostram as estimativas dos mínimos quadrados ponderados. As faixas cinzas verticais ao redor das linhas azuis são intervalos de confiança aproximados de 95% nos dois lados para a média harmônica. Nesse caso, em todas as amostras, o IC cobre a verdadeira média harmônica. Repetições desta simulação (com sementes aleatórias) sugerem que a cobertura é próxima da taxa de 95% pretendida, mesmo para esses pequenos conjuntos de dados. $20$ $n=12$ $4$ $20$

Aqui está o Rcódigo para a simulação e figuras.

k <- 5             # Gamma parameter
n <- 12            # Sample size
hm <- k-1          # True harmonic mean
set.seed(17)

t.crit <- -qt(0.05/2, n-1)
par(mfrow=c(4, 5))
for(i in 1:20) {
  #
  # Generate a random sample.
  #
  x <- rgamma(n, k)
  #
  # Estimate the harmonic mean.
  #
  fit <- lm(x ~ 1, weights=1/x)
  beta <- coef(summary(fit))[1, ]
  message("Harmonic mean estimate is ", signif(beta["Estimate"], 3), 
          " +/- ", signif(beta["Std. Error"], 3))
  #
  # Plot the results.
  #
  covers <- abs(beta["Estimate"] - hm) <= t.crit*beta["Std. Error"]
  plot(ecdf(x), main="Empirical CDF", sub=ifelse(covers, "", "***"))
  rect(beta["Estimate"] - t.crit*beta["Std. Error"], 0, 
       beta["Estimate"] + t.crit*beta["Std. Error"], 1.25, 
       border=NA, col=gray(0.5, alpha=0.10))
  abline(v = hm, col="Blue", lwd=2)
  abline(v = beta["Estimate"], col="Red", lty=3, lwd=2)
}

whuber
fonte

1

Aqui está um exemplo para r.v exponencial.

A média harmônica para pontos de dados é definida como $n$

S = \frac{1}{\frac{1}{n} \sum_{i = 1}^{n} X_{i}}

$S = \frac{1}{\frac{1}{n} \sum_{i=1}^n X_i}$

Suponha que você tenha amostras IID uma variável aleatória exponencial, . A soma de variáveis exponenciais segue uma distribuição gama $n$ $X_i \sim {\rm Exp}(\lambda)$ $n$

\sum_{i = 1}^{n} X_{i} \sim G a m m a (n, θ)

$\sum_{i=1}^n X_i \sim {\rm Gamma}(n, \theta)$

onde . Também sabemos que $\theta = \frac{1}{\lambda}$

\frac{1}{n} G a m m a (n, θ) \sim G a m m a (n, \frac{θ}{n})

$\frac{1}{n} {\rm Gamma}(n, \theta) \sim {\rm Gamma}(n, \frac{\theta}{n})$

A distribuição de é, portanto, $S$

S \sim I n v G a m m a (n, \frac{n}{θ})

$S \sim {\rm InvGamma}(n, \frac{n}{\theta})$

A variação (e desvio padrão) deste rv é bem conhecida, veja, por exemplo, aqui .

emakalic
fonte

3

sua definição de média harmônica não concorda com a wikipedia

mpiktas 22/02

Usar exponenciais é uma boa abordagem para entender o problema.

whuber

1

Toda a esperança não está totalmente perdida. Se Xi ~ Exp (\ lambda), então Xi ~ Gamma (1, \ lambda), então 1 / Xi ~ InvGamma (1, 1 / \ lambda). Então use "V. Witkovsky (2001) Computando a distribuição de uma combinação linear de variáveis gama invertidas, Kybernetika 37 (1), 79-90" e veja até onde você chega!

Tristan

0

Há alguma preocupação de que a CLT das mpiktas requer uma variação limitada em . É verdade que tem rabos malucos quando tem densidade positiva em torno de zero. No entanto, em muitas aplicações usando a média harmônica, . Aqui, é limitado por , fornecendo todos os momentos que você deseja! $1/X$ $1/X$ $X$ $X\ge1$ $1/X$ $1$

karl
fonte

0

O que eu sugeriria é usar a fórmula a seguir como substituto do desvio padrão:

σ = \sqrt{\frac{N}{\sum_{i = 1}^{N} {(\frac{1}{\hat{x}} - \frac{1}{x_{i}})}^{2}}},

$\sigma=\sqrt{\frac{N}{\sum_{i=1}^{N}{\left(\frac{1}{\hat{x}}-\frac{1}{x_i}\right)^2}}},$

onde . O bom dessa fórmula é que ela é minimizada quando e possui as mesmas unidades que o desvio padrão teria (que são as mesmas unidades que possui). $\hat{x} = \frac{N}{\sum \frac{1}{x_i}}$ $\hat{x} = \frac{N}{\sum \frac{1}{x_i}}$ $x$

Isso está em analogia com o desvio padrão, que é o valor que assume quando é minimizado em . É minimizado quando é a média: . $\sqrt{\frac{1}{N}\sum(\hat{x}-x_i)^2}$ $\hat{x}$ $\hat{x}$ $\hat{x}=\mu=\frac{1}{N}\sum x_i$

Gil Wolff
fonte

O desvio padrão pode ser calculado para a média harmônica?

Respostas: