Recentemente, eu encontrei o seguinte estimador de quantil para uma variável aleatória contínua em um artigo (não estatístico, aplicado): para um vetor de 100 , o quantil de 1% é estimado com . Aqui está como ele funciona: abaixo está um gráfico de densidade de kernel das realizações do estimador de 100.000 execuções de simulação de amostras de 100 comprimentos da distribuição . A reta vertical é o valor verdadeiro, ou seja, o quantil teórico de 1% da distribuição . O código para a simulação também é fornecido.
M=10e5; n=100
quantiles=rep(NA,M)
for(i in 1:M){ set.seed(i); quantiles[i]=min(rnorm(n)) }
plot(density(quantiles),main="Kernel density estimate of quantiles from M=100,000 simulation runs"); abline(v=qnorm(1/n))
O gráfico parece qualitativamente semelhante a uma distribuição (apenas um exemplo). Nos dois casos, o estimador é enviesado para baixo. Sem comparação com algum outro estimador, é difícil dizer quão bom é o contrário. Daí a minha pergunta: existem estimadores alternativos que são melhores em, digamos, erro absoluto esperado ou senso de erro quadrado esperado?
Respostas:
Uma amostra mínima de 100 observações é usada na prática como estimador de 1% quantil. Eu já vi isso chamado "percentil empírico".
Família de distribuição conhecida
Se você deseja uma estimativa diferente E tem uma idéia sobre a distribuição dos dados, sugiro examinar as medianas das estatísticas de pedidos. Por exemplo, este pacote R os utiliza para os coeficientes de correlação do gráfico de probabilidade PPCC . Você pode descobrir como eles fazem isso em algumas distribuições, como a normal. Você pode ver mais detalhes no artigo de Vogel, de 1986, "O Teste do Coeficiente de Correlação do Gráfico de Probabilidade para as Hipóteses Distribuicionais Normal, Lognormal e Gumbel" aqui em medianas estatísticas de ordem nas distribuições normal e lognormal.
Por exemplo, no artigo de Vogel, a Eq.2 define o min (x) de 100 amostras da distribuição normal padrão da seguinte maneira: onde a estimativa de a mediana do CDF:M1=Φ−1(FY(min(y))) F^Y(min(y))=1−(1/2)1/100=0.0069
o seguinte valor: para o padrão normal ao qual você pode aplicar o local e a escala para obter sua estimativa do 1º percentil: .M1=−2.46 μ^−2.46σ^
Aqui, como isso se compara ao mínimo (x) na distribuição normal:
O gráfico na parte superior é a distribuição do estimador min (x) do 1º percentil, e o gráfico na parte inferior é o que eu sugeri examinar. Também colei o código abaixo. No código, escolho aleatoriamente a média e a dispersão da distribuição normal e, em seguida, giro uma amostra de 100 observações. Em seguida, encontro min (x) e, em seguida, dimensiono-o para o padrão normal usando parâmetros verdadeiros da distribuição normal. Para o método M1, calculo o quantil usando média e variância estimadas e, em seguida, dimensiono-o de volta ao padrão usando os parâmetros verdadeiros novamente. Dessa forma, eu posso explicar o impacto do erro de estimativa da média e do desvio padrão até certo ponto. Eu também mostro o percentil verdadeiro com uma linha vertical.
Você pode ver como o estimador M1 é muito mais rígido que min (x). É porque usamos nosso conhecimento do verdadeiro tipo de distribuição , ou seja, normal. Ainda não conhecemos parâmetros verdadeiros, mas mesmo sabendo que a família de distribuição melhorou tremendamente nossa estimativa.
OCTAVE CODE
Você pode executá-lo aqui on-line: https://octave-online.net/
Distribuição desconhecida
Se você não souber de qual distribuição os dados estão vindo, existe outra abordagem usada em aplicativos de risco financeiro . Existem duas distribuições Johnson e SU . O primeiro é para casos ilimitados, como Normal e Student t, e o segundo, para limites inferiores, como lognormal. Você pode ajustar a distribuição Johnson aos seus dados e, em seguida, usar os parâmetros estimados estimar o quantil necessário. Tuenter (2001) sugeriu um procedimento de adaptação de momento, que é usado na prática por alguns.
Será melhor que min (x)? Não sei ao certo, mas às vezes produz melhores resultados na minha prática, por exemplo, quando você não conhece a distribuição, mas sabe que ela é de limite inferior.
fonte