Isenção de responsabilidade: Nos pontos a seguir, GROSSLY presume que seus dados sejam normalmente distribuídos. Se você está realmente criando alguma coisa, converse com um profissional de estatísticas forte e deixe essa pessoa assinar na linha dizendo qual será o nível. Converse com cinco deles, ou 25 deles. Essa resposta é para um estudante de engenharia civil que pergunta "por que" e não para um profissional de engenharia que pergunta "como".
Eu acho que a pergunta por trás da pergunta é "qual é a distribuição de valor extremo?". Sim, são alguns símbolos de álgebra. E daí? certo?
Vamos pensar em inundações de 1000 anos. Eles são grandes.
Quando eles acontecem, eles vão matar muitas pessoas. Muitas pontes estão caindo.
Você sabe que ponte não está caindo? Eu faço. Você não ... ainda.
Pergunta: Qual ponte não está caindo em uma inundação de 1000 anos?
Resposta: A ponte projetada para resistir a ela.
Os dados que você precisa fazer do seu jeito:
Digamos que você tenha 200 anos de dados diários sobre a água. A inundação de 1000 anos está aí? Não remotamente. Você tem uma amostra de uma cauda da distribuição. Você não tem população. Se você soubesse todo o histórico de inundações, teria a população total de dados. Vamos pensar sobre isso. Quantos anos de dados você precisa, quantas amostras, para ter pelo menos um valor cuja probabilidade é de 1 em 1000? Em um mundo perfeito, você precisaria de pelo menos 1000 amostras. O mundo real é confuso, então você precisa de mais. Você começa a obter probabilidades de 50/50 em cerca de 4000 amostras. Você começa a ter garantia de mais de 1 em cerca de 20.000 amostras. Amostra não significa "água um segundo vs. o próximo", mas uma medida para cada fonte única de variação - como a variação de ano para ano. Uma medida em um ano, juntamente com outra medida ao longo de outro ano, constituem duas amostras. Se você não possui 4.000 anos de bons dados, provavelmente não possui um exemplo de inundação de 1000 anos nos dados. O bom é que você não precisa de tantos dados para obter um bom resultado.
Veja como obter melhores resultados com menos dados:
se você observar os máximos anuais, poderá ajustar a "distribuição de valor extremo" aos 200 valores dos níveis máximos do ano e terá a distribuição que contém a inundação de 1000 anos -nível. Será a álgebra, não o real "quão grande é". Você pode usar a equação para determinar o tamanho da inundação de 1000 anos. Então, dado esse volume de água - você pode construir sua ponte para resistir a ela. Não atire para o valor exato, atire para maior, caso contrário, você o está projetando para falhar na enchente de 1000 anos. Se você estiver em negrito, poderá usar a reamostragem para descobrir quanto além do valor exato de 1000 anos para o qual precisa construí-lo para que ele resista.
Eis por que EV / GEV são as formas analíticas relevantes:
A distribuição generalizada de valores extremos é sobre quanto o máximo varia. A variação no máximo se comporta realmente diferente da variação na média. A distribuição normal, através do teorema do limite central, descreve muitas "tendências centrais".
Procedimento:
- faça o seguinte 1000 vezes:
i. escolha 1000 números da distribuição normal padrão
ii. calcular o máximo desse grupo de amostras e armazená-lo
agora plote a distribuição do resultado
#libraries
library(ggplot2)
#parameters and pre-declarations
nrolls <- 1000
ntimes <- 10000
store <- vector(length=ntimes)
#main loop
for (i in 1:ntimes){
#get samples
y <- rnorm(nrolls,mean=0,sd=1)
#store max
store[i] <- max(y)
}
#plot
ggplot(data=data.frame(store), aes(store)) +
geom_histogram(aes(y = ..density..),
col="red",
fill="green",
alpha = .2) +
geom_density(col=2) +
labs(title="Histogram for Max") +
labs(x="Max", y="Count")
Esta NÃO é a "distribuição normal padrão":
O pico está em 3,2, mas o máximo sobe para 5,0. Tem inclinação. Não fica abaixo de 2,5. Se você tinha dados reais (o padrão normal) e apenas selecionou a cauda, então você está uniformemente escolhendo aleatoriamente algo ao longo desta curva. Se você tiver sorte, estará em direção ao centro e não à cauda inferior. Engenharia é o oposto da sorte - é sempre alcançar os resultados desejados de forma consistente. " Números aleatórios são importantes demais para serem deixados ao acaso " (consulte a nota de rodapé), especialmente para um engenheiro. A família de funções analíticas que melhor se ajusta a esses dados - a família de distribuições de extremo valor.
Ajuste da amostra:
digamos que tenhamos 200 valores aleatórios do ano, no máximo, a partir da distribuição normal padrão, e vamos fingir que são nossos 200 anos de história de níveis máximos de água (o que isso significa). Para obter a distribuição, faríamos o seguinte:
- Exemplo da variável "store" (para facilitar o código curto / fácil)
- ajuste a uma distribuição generalizada de valores extremos
- encontre a média da distribuição
- use o bootstrapping para encontrar o limite superior do IC de 95% na variação da média, para que possamos direcionar nossa engenharia para isso.
(o código presume que o acima foi executado primeiro)
library(SpatialExtremes) #if it isn't here install it, it is the ev library
y2 <- sample(store,size=200,replace=FALSE) #this is our data
myfit <- gevmle(y2)
Isso fornece resultados:
> gevmle(y2)
loc scale shape
3.0965530 0.2957722 -0.1139021
Eles podem ser conectados à função de geração para criar 20.000 amostras
y3 <- rgev(20000,loc=myfit[1],scale=myfit[2],shape=myfit[3])
Construir para o seguinte dará chances de 50/50 de falha em qualquer ano:
média (y3)
3,23681
Aqui está o código para determinar qual é o nível de "inundação" de 1000 anos:
p1000 <- qgev(1-(1/1000),loc=myfit[1],scale=myfit[2],shape=myfit[3])
p1000
Construir para o seguinte deve dar 50/50 de chances de falhar na enchente de 1000 anos.
p1000
4.510931
Para determinar o IC superior a 95%, usei o seguinte código:
myloc <- 3.0965530
myscale <- 0.2957722
myshape <- -0.1139021
N <- 1000
m <- 200
p_1000 <- vector(length=N)
yd <- vector(length=m)
for (i in 1:N){
#generate samples
yd <- rgev(m,loc=myloc,scale=myscale,shape=myshape)
#compute fit
fit_d <- gevmle(yd)
#compute quantile
p_1000[i] <- qgev(1-(1/1000),loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])
}
mytarget <- quantile(p_1000,probs=0.95)
O resultado foi:
> mytarget
95%
4.812148
Isso significa que, para resistir à grande maioria das inundações de 1000 anos, considerando que seus dados são imaculadamente normais (não é provável), você deve criar para o ...
> out <- pgev(4.812148,loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])
> 1/(1-out)
ou o
> 1/(1-out)
shape
1077.829
... inundação de 1078 anos.
Linhas de fundo:
- você tem uma amostra dos dados, não a população total real. Isso significa que seus quantis são estimativas e podem estar desativados.
- Distribuições como a distribuição generalizada de valores extremos são construídas para usar as amostras para determinar as caudas reais. Eles são muito menos prejudiciais ao estimar do que usar os valores da amostra, mesmo se você não tiver amostras suficientes para a abordagem clássica.
- Se você é robusto, o teto é alto, mas o resultado é: você não falha.
Boa sorte
PS:
PS: mais divertido - um vídeo do youtube (não meu)
https://www.youtube.com/watch?v=EACkiMRT0pc
Nota de rodapé: Coveyou, Robert R. "A geração aleatória de números é importante demais para ser deixada ao acaso." Métodos de Probabilidade Aplicada e Monte Carlo e aspectos modernos da dinâmica. Estudos em matemática aplicada 3 (1969): 70-111.
extreme value distribution
vez dethe overall distribution
ajustar os dados e obter os valores de 98,5%.Você usa a teoria de valores extremos para extrapolar a partir dos dados observados. Freqüentemente, os dados que você possui simplesmente não são grandes o suficiente para fornecer uma estimativa sensata da probabilidade da cauda. Tomando o exemplo do @ EngrStudent de um evento de 1 em 1000 anos: isso corresponde a encontrar o quantil de 99,9% de uma distribuição. Mas se você tiver apenas 200 anos de dados, poderá calcular estimativas empíricas de quantil até 99,5%.
A teoria dos valores extremos permite estimar o quantil de 99,9%, fazendo várias suposições sobre o formato de sua distribuição na cauda: que é suave, que decai com um determinado padrão e assim por diante.
Você pode estar pensando que a diferença entre 99,5% e 99,9% é menor; afinal, é de apenas 0,4%. Mas essa é uma diferença de probabilidade e, quando você está no fim, pode se traduzir em uma enorme diferença em quantis . Aqui está uma ilustração da aparência de uma distribuição gama, que não tem uma cauda muito longa à medida que essas coisas acontecem. A linha azul corresponde ao quantil de 99,5% e a linha vermelha é o quantil de 99,9%. Embora a diferença entre eles seja pequena no eixo vertical, a separação no eixo horizontal é substancial. A separação só aumenta para distribuições verdadeiramente de cauda longa; a gama é realmente um caso bastante inócuo.
fonte
Se você está interessado apenas em uma cauda, faz sentido que você concentre seu esforço de coleta e análise de dados na cauda. Deve ser mais eficiente fazê-lo. Eu enfatizei a coleta de dados porque esse aspecto é frequentemente ignorado ao apresentar um argumento para distribuições de EVT. De fato, pode ser inviável coletar os dados relevantes para estimar o que você chama de distribuição geral em alguns campos. Vou explicar em mais detalhes abaixo.
Se você estiver vendo 1 em 1000 anos de inundação, como no exemplo do @ EngrStudent, para criar o corpo da distribuição normal, você precisará de muitos dados para preenchê-lo com observações. Potencialmente, você precisa de todas as inundações que ocorreram nas últimas centenas de anos.
Agora pare por um segundo e pense no que é exatamente uma inundação? Quando meu quintal é inundado após uma forte chuva, é uma inundação? Provavelmente não, mas onde exatamente está a linha que delineia uma inundação de um evento que não é uma inundação? Esta pergunta simples destaca o problema com a coleta de dados. Como você pode ter certeza de que coletamos todos os dados do corpo seguindo o mesmo padrão por décadas ou talvez séculos? É praticamente impossível coletar os dados no corpo da distribuição de inundações.
Portanto, não é apenas uma questão de eficiência da análise , mas uma questão de viabilidade da coleta de dados : modelar toda a distribuição ou apenas uma cauda?
Naturalmente, com caudas, a coleta de dados é muito mais fácil. Se definirmos o limite alto o suficiente para uma inundação enorme , teremos uma chance maior de que todos ou quase todos esses eventos sejam provavelmente registrados de alguma forma. É difícil perder uma inundação devastadora, e se houver algum tipo de civilização presente, haverá alguma memória salva sobre o evento. Portanto, faz sentido criar as ferramentas analíticas que se concentram especificamente nas caudas, uma vez que a coleta de dados é muito mais robusta em eventos extremos do que nos não extremos em muitos campos, como estudos de confiabilidade.
fonte
Geralmente, a distribuição dos dados subjacentes (por exemplo, velocidades do vento gaussianas) é para um único ponto de amostra. O 98º percentil dirá que, para qualquer ponto selecionado aleatoriamente, existe uma chance de 2% do valor ser maior que o 98º percentil.
Não sou engenheiro civil, mas imagino que o que você gostaria de saber não é a probabilidade de a velocidade do vento estar em um determinado dia acima de um determinado número, mas a distribuição da maior rajada possível, digamos: o curso do ano. Nesse caso, se os máximos diários da rajada de vento são, digamos, exponencialmente distribuídos, o que você deseja é a distribuição da rajada máxima de vento em 365 dias ... é isso que a distribuição de valor extremo deveria solucionar.
fonte
O uso do quantil simplifica o cálculo posterior. Os engenheiros civis podem substituir o valor (velocidade do vento, por exemplo) em suas fórmulas de primeiro princípio e obtêm o comportamento do sistema para as condições extremas que correspondem ao quantil de 98,5%.
O uso de toda a distribuição pode parecer fornecer mais informações, mas complicaria os cálculos. No entanto, poderia permitir o uso de abordagens avançadas de gerenciamento de riscos que equilibrassem de maneira ideal os custos relacionados a (i) construção e (ii) risco de falha.
fonte