Mostrar estimativa converge para percentil através de estatísticas de pedidos

Seja uma sequência de variáveis aleatórias iid amostradas de uma distribuição alfa estável , com os parâmetros . $X_1, X_2, \ldots, X_{3n}$ $\alpha = 1.5, \; \beta = 0, \; c = 1.0, \; \mu = 1.0$

Agora considere a sequência , em que , para . $Y_1, Y_2, \ldots, Y_{n}$ $Y_{j+1} = X_{3j+1}X_{3j+2}X_{3j+3} - 1$ $j=0, \ldots, n-1$

Quero estimar o percentil . $0.01-$

Minha idéia é executar uma espécie de simulação de Monte-Carlo:

l = 1;
while(l < max_iterations)
{
  Generate $X_1, X_2, \ldots, X_{3n}$ and compute $Y_1, Y_2, \ldots, Y_{n}$;
  Compute $0.01-$percentile of current repetition;
  Compute mean $0.01-$percentile of all the iterations performed;
  Compute variance of $0.01-$percentile of all the iterations performed;
  Calculate confidence interval for the estimate of the $0.01-$percentile;

  if(confidence interval is small enough)
    break;

}

Chamando a média de todos os percentis de amostra calculados como e sua variação , para calcular o intervalo de confiança apropriado para , eu recorro à forma Forte do Teorema do Limite Central : $0.01-$ $\hat{\mu}_n$ $\hat{\sigma}^{2}_{n}$ $\mu$

Seja uma sequência de variáveis aleatórias iid com e . Defina a média da amostra como . Então, tem uma distribuição normal padrão limitante, ou seja, $X_1, X_2, \ldots$ $E \left[ X_i \right] = \mu$ $0 < V \left[ X_i \right] = \sigma^2 < \infty$ $\hat{\mu}_n = (1/n) \sum_{i=1}^n X_i$ $(\hat{\mu}_n - \mu) / \sqrt{\sigma^{2}/n}$
$\frac{{\hat{μ}}_{n} - μ}{\sqrt{σ^{2} / n}} \overset{n \to \infty}{⟶} N (0 0, 1 1) .$ $\frac{\hat{\mu}_n - \mu}{\sqrt{\sigma^{2}/n}} \overset{n \rightarrow \infty} \longrightarrow N(0,1).$

e o teorema de Slutksy para concluir que

\sqrt{n} \frac{{\hat{μ}}_{n} - μ}{\sqrt{{\hat{σ}}_{n}^{2}}} \overset{n \to \infty}{⟶} N (0 0, 1 1) .

$\sqrt{n} \frac{\hat{\mu}_n - \mu}{\sqrt{\hat{\sigma}^{2}_{n}}} \overset{n \rightarrow \infty} \longrightarrow N(0,1).$

Então, um - intervalo de confiança para é $(1-\alpha)\times 100\%$ $\mu$

{Eu}_{α} = [{\hat{μ}}_{n} - z_{1 1 - α / 2} \sqrt{\frac{{\hat{σ}}_{n}^{2}}{n}}, {\hat{μ}}_{n} + z_{1 1 - α / 2} \sqrt{\frac{{\hat{σ}}_{n}^{2}}{n}}],

$I_{\alpha} = \left[\hat{\mu}_n - z_{1- \alpha / 2} \sqrt{\frac{\hat{\sigma}^{2}_{n}}{n}} , \hat{\mu}_n + z_{1- \alpha / 2} \sqrt{\frac{\hat{\sigma}^{2}_{n}}{n}} \right],$ que é o -quantil da distribuição normal padrão.

z_{1 - α / 2}

$z_{1- \alpha / 2}$

(1 - α / 2)

$(1- \alpha / 2)$

Questões:

1) Minha abordagem está correta? Como posso justificar a aplicação do CLT? Quero dizer, como posso mostrar que a variação é finita? (Eu tenho que olhar para a variação de ? Porque eu não acho que seja finito ...) $Y_j$

2) Como posso mostrar que a média de todos os percentis da amostra computados converge para o valor real do percentil ? (Eu devo usar estatísticas de pedidos, mas não tenho certeza de como proceder; as referências são apreciadas.) $0.01-$ $0.01-$

probability self-study monte-carlo convergence order-statistics Maya
fonte

Todos os métodos aplicados à amostra de medianas em stats.stackexchange.com/questions/45124 também se aplicam a outros percentis. Com efeito, sua pergunta é idêntica àquela, mas apenas substitui o 50º percentil pelo 1º (ou 0,01 talvez?).

whuber

@whuber, sua resposta a essa pergunta é extremamente boa. no entanto, Glen_b declara, no final de seu post (a resposta aceita), que a normalidade aproximada "não vale para quantis extremos, porque o CLT não entra em ação lá (a média de Zs não será assintoticamente normal" Você precisa de uma teoria diferente para valores extremos ". Quão preocupado eu deveria estar com essa afirmação?

217 Maya

Acredito que ele realmente não quis dizer quantis extremos , mas apenas os extremos . (De fato, ele corrigiu esse lapso no final da mesma frase, referindo-se a eles como "valores extremos".) A distinção é que um quantil extremo, como o percentil 0,01 (que marca o 1 / 10000º inferior da distribuição) estabilizará, no limite, porque mais e mais dados em uma amostra ainda ficarão abaixo e mais e mais ficarão acima desse percentil. Com um extremo (como o máximo ou o mínimo), esse não é mais o caso.

whuber

Este é um problema que deve ser resolvido em geral usando a teoria empírica do processo. Alguma ajuda sobre o seu nível de treinamento seria útil.

AdamO 27/10/16

Respostas:

A variação de não é finita. $Y$ Isso é porque uma variável alfa-estável com (uma distribuição Holtzmark ) tem uma expectativa finito mas a sua variância é infinita. Se tivesse uma variância finita , explorando a independência do e a definição de variância, poderíamos calcular $X$ $\alpha=3/2$ $\mu$ $Y$ $\sigma^2$ $X_i$

\begin{aligned} σ^{2} = Var (Y) & = E (Y^{2}) - E (Y)^{2} \\ = E (X_{1 1}^{2} X_{2}^{2} X_{3}^{2}) - E (X_{1 1} X_{2} X_{3})^{2} \\ = E (X^{2})^{3} - {(E (X)^{3})}^{2} \\ = {(Var (X) + E (X)^{2})}^{3} - μ^{6} \\ = {(Var (X) + μ^{2})}^{3} - μ^{6} . \end{aligned}

$\eqalign{ \sigma^2 = \operatorname{Var}(Y) &= \mathbb{E}(Y^2) - \mathbb{E}(Y)^2 \\ &= \mathbb{E}(X_1^2X_2^2X_3^2) - \mathbb{E}(X_1X_2X_3)^2 \\ &= \mathbb{E}(X^2)^3 - \left(\mathbb{E}(X)^3\right)^2 \\ &= \left(\operatorname{Var}(X) + \mathbb{E}(X)^2\right)^3 - \mu^6 \\ &= \left(\operatorname{Var}(X) + \mu^2\right)^3 - \mu^6. }$

Essa equação cúbica em tem pelo menos uma solução real (e até três soluções, mas não mais), o que implica que seria finito - mas não é. Essa contradição comprova a afirmação. $\operatorname{Var}(X)$ $\operatorname{Var}(X)$

Vamos passar para a segunda pergunta.

Qualquer quantil de amostra converge para o quantil verdadeiro à medida que a amostra cresce. Os próximos parágrafos comprovam esse ponto geral.

Seja a probabilidade associada (ou qualquer outro valor entre e , exclusivo). Faça para a função de distribuição, de modo a que é o quantil. $q=0.01$ $0$ $1$ $F$ $Z_q=F^{-1}(q)$ $q^{\text{th}}$

Tudo o que precisamos assumir é que (a função quantil) é contínua. Isso nos assegura que para qualquer existem probabilidades e para as quais $F^{-1}$ $\epsilon\gt 0$ $q_-\lt q$ $q_+\gt q$

F (Z_{q} - ϵ) = q_{-}, F (Z_{q} + ϵ) = q_{+},

$F(Z_q - \epsilon) = q_-,\quad F(Z_q + \epsilon) = q_+,$

e que como , o limite do intervalo é . $\epsilon\to 0$ $[q_-, q_+]$ $\{q\}$

Considere qualquer amostra iid do tamanho . O número de elementos deste exemplo que são menos do que tem um binomial de distribuição, porque cada elemento tem, independentemente, uma possibilidade de ser menos do que . O Teorema do Limite Central (o usual!) Implica que, para suficientemente grande , o número de elementos menor que é dado por uma distribuição Normal com média e variação $n$ $Z_{q_-}$ $(q_-, n)$ $q_-$ $Z_{q_-}$ $n$ $Z_{q_-}$ $nq_-$ (para uma aproximação arbitrariamente boa). Seja o CDF da distribuição normal padrão . A chance de que essa quantidade exceda é, portanto, arbitrariamente próxima de $nq_-(1-q_-)$ $\Phi$ $nq$

1 1 - Φ (\frac{n q - n q_{-}}{\sqrt{n q_{-} (1 1 - q_{-})}}) = 1 1 - Φ (\sqrt{n} \frac{q - q_{-}}{\sqrt{q_{-} (1 1 - q_{-})}}) .

$1-\Phi\left(\frac{nq - nq_-}{\sqrt{nq_-(1-q_-)}}\right) = 1-\Phi\left(\sqrt{n}\frac{q - q_-}{\sqrt{q_-(1-q_-)}}\right).$

Como o argumento no lado direito é um múltiplo fixo de $\Phi$ , cresce arbitrariamente grande à medida quecresce. Comoé um CDF, seu valor se aproxima arbitrariamente próximo de, mostrando que o valor limite dessa probabilidade é zero. $\sqrt{n}$ $n$ $\Phi$ $1$

Em palavras: no limite, é quase certo que dos elementos da amostra não sejam menores que . Um argumento análogo prova que é quase certo que dos elementos da amostra não seja maior que . Juntos, isso implica que o quantil de uma amostra suficientemente grande é extremamente provável que esteja entre e . $nq$ $Z_{q_-}$ $nq$ $Z_{q_+}$ $q$ $Z_q-\epsilon$ $Z_q+\epsilon$

$\epsilon$ $1-\alpha$ $n$ $nq$ $1-\alpha$ $\epsilon$ $Z_q$

$q=0.50$

$q=0.01$ $Y$ $n=300$ $Y$

library(stabledist)
n <- 3e2
q <- 0.01
n.sim <- 1e3

Y.q <- replicate(n.sim, {
  Y <- apply(matrix(rstable(3*n, 3/2, 0, 1, 1), nrow=3), 2, prod) - 1
  log(-quantile(Y, 0.01))
})
m <- median(-exp(Y.q))
hist(Y.q, freq=FALSE, 
     main=paste("Histogram of the", q, "quantile of Y for", n.sim, "iterations" ),
     xlab="Log(-Y_q)",
     sub=paste("Median is", signif(m, 4), 
               "Negative log is", signif(log(-m), 4)),
     cex.sub=0.8)
abline(v=log(-m), col="Red", lwd=2)

whuber
fonte