Por que usar a teoria dos valores extremos?

18

Eu venho da Engenharia Civil, na qual usamos a Extreme Value Theory , como a distribuição GEV para prever o valor de certos eventos, como A maior velocidade do vento , ou seja, o valor em que 98,5% da velocidade do vento seria menor.

Minha pergunta é por que usar uma distribuição de valor tão extrema ? Não seria mais fácil se apenas usássemos a distribuição geral e obtivéssemos o valor para a probabilidade de 98,5% ?

cqcn1991
fonte

Respostas:

24

Isenção de responsabilidade: Nos pontos a seguir, GROSSLY presume que seus dados sejam normalmente distribuídos. Se você está realmente criando alguma coisa, converse com um profissional de estatísticas forte e deixe essa pessoa assinar na linha dizendo qual será o nível. Converse com cinco deles, ou 25 deles. Essa resposta é para um estudante de engenharia civil que pergunta "por que" e não para um profissional de engenharia que pergunta "como".

Eu acho que a pergunta por trás da pergunta é "qual é a distribuição de valor extremo?". Sim, são alguns símbolos de álgebra. E daí? certo?

Vamos pensar em inundações de 1000 anos. Eles são grandes.

Quando eles acontecem, eles vão matar muitas pessoas. Muitas pontes estão caindo.
Você sabe que ponte não está caindo? Eu faço. Você não ... ainda.

Pergunta: Qual ponte não está caindo em uma inundação de 1000 anos?
Resposta: A ponte projetada para resistir a ela.

Os dados que você precisa fazer do seu jeito:
Digamos que você tenha 200 anos de dados diários sobre a água. A inundação de 1000 anos está aí? Não remotamente. Você tem uma amostra de uma cauda da distribuição. Você não tem população. Se você soubesse todo o histórico de inundações, teria a população total de dados. Vamos pensar sobre isso. Quantos anos de dados você precisa, quantas amostras, para ter pelo menos um valor cuja probabilidade é de 1 em 1000? Em um mundo perfeito, você precisaria de pelo menos 1000 amostras. O mundo real é confuso, então você precisa de mais. Você começa a obter probabilidades de 50/50 em cerca de 4000 amostras. Você começa a ter garantia de mais de 1 em cerca de 20.000 amostras. Amostra não significa "água um segundo vs. o próximo", mas uma medida para cada fonte única de variação - como a variação de ano para ano. Uma medida em um ano, juntamente com outra medida ao longo de outro ano, constituem duas amostras. Se você não possui 4.000 anos de bons dados, provavelmente não possui um exemplo de inundação de 1000 anos nos dados. O bom é que você não precisa de tantos dados para obter um bom resultado.

Veja como obter melhores resultados com menos dados:
se você observar os máximos anuais, poderá ajustar a "distribuição de valor extremo" aos 200 valores dos níveis máximos do ano e terá a distribuição que contém a inundação de 1000 anos -nível. Será a álgebra, não o real "quão grande é". Você pode usar a equação para determinar o tamanho da inundação de 1000 anos. Então, dado esse volume de água - você pode construir sua ponte para resistir a ela. Não atire para o valor exato, atire para maior, caso contrário, você o está projetando para falhar na enchente de 1000 anos. Se você estiver em negrito, poderá usar a reamostragem para descobrir quanto além do valor exato de 1000 anos para o qual precisa construí-lo para que ele resista.

Eis por que EV / GEV são as formas analíticas relevantes:
A distribuição generalizada de valores extremos é sobre quanto o máximo varia. A variação no máximo se comporta realmente diferente da variação na média. A distribuição normal, através do teorema do limite central, descreve muitas "tendências centrais".

Procedimento:

  1. faça o seguinte 1000 vezes:
    i. escolha 1000 números da distribuição normal padrão
    ii. calcular o máximo desse grupo de amostras e armazená-lo
  2. agora plote a distribuição do resultado

    #libraries
    library(ggplot2)
    
    #parameters and pre-declarations
    nrolls <- 1000
    ntimes <- 10000
    store <- vector(length=ntimes)
    
    #main loop
    for (i in 1:ntimes){
    
         #get samples
         y <- rnorm(nrolls,mean=0,sd=1)
    
         #store max
         store[i] <- max(y)
    }
    
    #plot
    ggplot(data=data.frame(store), aes(store)) + 
         geom_histogram(aes(y = ..density..),
                        col="red", 
                        fill="green", 
                        alpha = .2) + 
         geom_density(col=2) + 
         labs(title="Histogram for Max") +
         labs(x="Max", y="Count")
    

Esta NÃO é a "distribuição normal padrão": insira a descrição da imagem aqui

O pico está em 3,2, mas o máximo sobe para 5,0. Tem inclinação. Não fica abaixo de 2,5. Se você tinha dados reais (o padrão normal) e apenas selecionou a cauda, ​​então você está uniformemente escolhendo aleatoriamente algo ao longo desta curva. Se você tiver sorte, estará em direção ao centro e não à cauda inferior. Engenharia é o oposto da sorte - é sempre alcançar os resultados desejados de forma consistente. " Números aleatórios são importantes demais para serem deixados ao acaso " (consulte a nota de rodapé), especialmente para um engenheiro. A família de funções analíticas que melhor se ajusta a esses dados - a família de distribuições de extremo valor.

Ajuste da amostra:
digamos que tenhamos 200 valores aleatórios do ano, no máximo, a partir da distribuição normal padrão, e vamos fingir que são nossos 200 anos de história de níveis máximos de água (o que isso significa). Para obter a distribuição, faríamos o seguinte:

  1. Exemplo da variável "store" (para facilitar o código curto / fácil)
  2. ajuste a uma distribuição generalizada de valores extremos
  3. encontre a média da distribuição
  4. use o bootstrapping para encontrar o limite superior do IC de 95% na variação da média, para que possamos direcionar nossa engenharia para isso.

(o código presume que o acima foi executado primeiro)

library(SpatialExtremes) #if it isn't here install it, it is the ev library
y2 <- sample(store,size=200,replace=FALSE)  #this is our data

myfit <- gevmle(y2)

Isso fornece resultados:

> gevmle(y2)    
       loc      scale      shape     
 3.0965530  0.2957722 -0.1139021     

Eles podem ser conectados à função de geração para criar 20.000 amostras

y3 <- rgev(20000,loc=myfit[1],scale=myfit[2],shape=myfit[3])

Construir para o seguinte dará chances de 50/50 de falha em qualquer ano:

média (y3)
3,23681

Aqui está o código para determinar qual é o nível de "inundação" de 1000 anos:

p1000 <- qgev(1-(1/1000),loc=myfit[1],scale=myfit[2],shape=myfit[3])
p1000

Construir para o seguinte deve dar 50/50 de chances de falhar na enchente de 1000 anos.

p1000
4.510931

Para determinar o IC superior a 95%, usei o seguinte código:

myloc <- 3.0965530
myscale <- 0.2957722
myshape <- -0.1139021

N <- 1000
m <- 200
p_1000 <- vector(length=N)
yd <- vector(length=m)

for (i in 1:N){

      #generate samples
    yd <- rgev(m,loc=myloc,scale=myscale,shape=myshape)

    #compute fit
    fit_d <- gevmle(yd)

    #compute quantile
    p_1000[i] <- qgev(1-(1/1000),loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])

}

mytarget <- quantile(p_1000,probs=0.95)

O resultado foi:

> mytarget
     95% 
4.812148

Isso significa que, para resistir à grande maioria das inundações de 1000 anos, considerando que seus dados são imaculadamente normais (não é provável), você deve criar para o ...

> out <- pgev(4.812148,loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])
> 1/(1-out)

ou o

> 1/(1-out)
   shape 
1077.829 

... inundação de 1078 anos.

Linhas de fundo:

  • você tem uma amostra dos dados, não a população total real. Isso significa que seus quantis são estimativas e podem estar desativados.
  • Distribuições como a distribuição generalizada de valores extremos são construídas para usar as amostras para determinar as caudas reais. Eles são muito menos prejudiciais ao estimar do que usar os valores da amostra, mesmo se você não tiver amostras suficientes para a abordagem clássica.
  • Se você é robusto, o teto é alto, mas o resultado é: você não falha.

Boa sorte

PS:

  • 1/(1-0,985)67
  • Dado o ponto anterior, em média a cada 67 anos, os civis deveriam ter que se reconstruir. Portanto, com o custo total de engenharia e construção a cada 67 anos, dada a vida operacional da estrutura civil (não sei o que é isso), em algum momento pode ser mais barato projetar por um período entre tempestades. Uma infraestrutura civil sustentável é aquela projetada para durar pelo menos uma vida humana sem falhas, certo?

PS: mais divertido - um vídeo do youtube (não meu)
https://www.youtube.com/watch?v=EACkiMRT0pc

Nota de rodapé: Coveyou, Robert R. "A geração aleatória de números é importante demais para ser deixada ao acaso." Métodos de Probabilidade Aplicada e Monte Carlo e aspectos modernos da dinâmica. Estudos em matemática aplicada 3 (1969): 70-111.

EngrStudent - Restabelecer Monica
fonte
2
Eu posso não estar suficientemente claro. Minha principal preocupação é por que usar em extreme value distributionvez de the overall distributionajustar os dados e obter os valores de 98,5%.
cqcn1991 27/06
O que você quer dizer com população geral?
b Kjetil Halvorsen
1
atualizou a resposta.
EngrStudent - Restabelece Monica
2
Ótima resposta para o @EngrStudent, no entanto, seria ainda melhor se você mostrasse como a EVT funciona aqui melhor do que usar a distribuição Normal, além de fornecer ilustração.
Tim
2
Depois de fazer algum trabalho de modelagem, eu diria que o uso da distribuição pai é simplesmente perigoso, porque os dados são muito poucos e a extrapolação é apenas perigosa e instável, para modelar eventos extremos. E é assim que devemos usar a teoria do VE.
Cqcn1991 02/01
7

Você usa a teoria de valores extremos para extrapolar a partir dos dados observados. Freqüentemente, os dados que você possui simplesmente não são grandes o suficiente para fornecer uma estimativa sensata da probabilidade da cauda. Tomando o exemplo do @ EngrStudent de um evento de 1 em 1000 anos: isso corresponde a encontrar o quantil de 99,9% de uma distribuição. Mas se você tiver apenas 200 anos de dados, poderá calcular estimativas empíricas de quantil até 99,5%.

A teoria dos valores extremos permite estimar o quantil de 99,9%, fazendo várias suposições sobre o formato de sua distribuição na cauda: que é suave, que decai com um determinado padrão e assim por diante.

Você pode estar pensando que a diferença entre 99,5% e 99,9% é menor; afinal, é de apenas 0,4%. Mas essa é uma diferença de probabilidade e, quando você está no fim, pode se traduzir em uma enorme diferença em quantis . Aqui está uma ilustração da aparência de uma distribuição gama, que não tem uma cauda muito longa à medida que essas coisas acontecem. A linha azul corresponde ao quantil de 99,5% e a linha vermelha é o quantil de 99,9%. Embora a diferença entre eles seja pequena no eixo vertical, a separação no eixo horizontal é substancial. A separação só aumenta para distribuições verdadeiramente de cauda longa; a gama é realmente um caso bastante inócuo.

insira a descrição da imagem aqui

Hong Ooi
fonte
Sua resposta está incorreta. O ponto de 99,9% de uma normal anual morre não corresponde a um evento de 1 em 1000 anos. O máximo de 1000 normais tem uma distribuição diferente. Eu acho que isso é abordado em outras respostas.
Mark L. Stone
@ MarkL.Stone Em nenhum lugar eu disse nada sobre o máximo de 1000 normais.
Hong Ooi
1
Esse é exatamente o meu ponto. O evento 1 em um período de 1000 anos deve se basear no máximo de 1000 Normal anual. Isso é muito diferente do ponto de 99,9 dólares em um Normal anual. Veja meu comentário à resposta de Karel Macek abaixo.
Mark L. Stone
@ MarkL.Stone O objetivo do gráfico é apenas mostrar que, quando você está no fim, pequenas mudanças nas probabilidades correspondem a grandes mudanças nos quantis. Você pode substituir o quantil de 99% de um GEV, GPD ou qualquer outra distribuição. (E eu nem sequer mencionar a distribuição normal.)
Hong Ooi
Além disso, estimar o máximo via GEV é apenas uma maneira de obter quantis da cauda. A outra maneira é estimar quantis diretamente via GPD (assumindo uma distribuição de cauda pesada).
Hong Ooi
7

Se você está interessado apenas em uma cauda, ​​faz sentido que você concentre seu esforço de coleta e análise de dados na cauda. Deve ser mais eficiente fazê-lo. Eu enfatizei a coleta de dados porque esse aspecto é frequentemente ignorado ao apresentar um argumento para distribuições de EVT. De fato, pode ser inviável coletar os dados relevantes para estimar o que você chama de distribuição geral em alguns campos. Vou explicar em mais detalhes abaixo.

Se você estiver vendo 1 em 1000 anos de inundação, como no exemplo do @ EngrStudent, para criar o corpo da distribuição normal, você precisará de muitos dados para preenchê-lo com observações. Potencialmente, você precisa de todas as inundações que ocorreram nas últimas centenas de anos.

Agora pare por um segundo e pense no que é exatamente uma inundação? Quando meu quintal é inundado após uma forte chuva, é uma inundação? Provavelmente não, mas onde exatamente está a linha que delineia uma inundação de um evento que não é uma inundação? Esta pergunta simples destaca o problema com a coleta de dados. Como você pode ter certeza de que coletamos todos os dados do corpo seguindo o mesmo padrão por décadas ou talvez séculos? É praticamente impossível coletar os dados no corpo da distribuição de inundações.

Portanto, não é apenas uma questão de eficiência da análise , mas uma questão de viabilidade da coleta de dados : modelar toda a distribuição ou apenas uma cauda?

Naturalmente, com caudas, a coleta de dados é muito mais fácil. Se definirmos o limite alto o suficiente para uma inundação enorme , teremos uma chance maior de que todos ou quase todos esses eventos sejam provavelmente registrados de alguma forma. É difícil perder uma inundação devastadora, e se houver algum tipo de civilização presente, haverá alguma memória salva sobre o evento. Portanto, faz sentido criar as ferramentas analíticas que se concentram especificamente nas caudas, uma vez que a coleta de dados é muito mais robusta em eventos extremos do que nos não extremos em muitos campos, como estudos de confiabilidade.

Aksakal
fonte
+1 pontos interessantes e convincentes, especialmente nas observações no final.
whuber
(+1) Relacionado ao seu último ponto (memória preservada), o Efeito Sadler pode ser do seu interesse.
GeoMatt22
@ GeoMatt22, é a primeira vez que vejo o artigo e o termo Efeito Sadler. Obrigado pelo link
Aksakal 15/17
Esse é um ponto verdadeiramente excelente. É um sistema, portanto, uma abordagem sistêmica pode ter um excelente rendimento. A melhor análise do mundo pode ser envenenada com dados indesejados. Uma análise bastante simples, quando alimentada com bons dados, pode ter ótimos resultados. Bons pontos!
EngrStudent - Restabelece Monica
6

Geralmente, a distribuição dos dados subjacentes (por exemplo, velocidades do vento gaussianas) é para um único ponto de amostra. O 98º percentil dirá que, para qualquer ponto selecionado aleatoriamente, existe uma chance de 2% do valor ser maior que o 98º percentil.

Não sou engenheiro civil, mas imagino que o que você gostaria de saber não é a probabilidade de a velocidade do vento estar em um determinado dia acima de um determinado número, mas a distribuição da maior rajada possível, digamos: o curso do ano. Nesse caso, se os máximos diários da rajada de vento são, digamos, exponencialmente distribuídos, o que você deseja é a distribuição da rajada máxima de vento em 365 dias ... é isso que a distribuição de valor extremo deveria solucionar.


fonte
1

O uso do quantil simplifica o cálculo posterior. Os engenheiros civis podem substituir o valor (velocidade do vento, por exemplo) em suas fórmulas de primeiro princípio e obtêm o comportamento do sistema para as condições extremas que correspondem ao quantil de 98,5%.

O uso de toda a distribuição pode parecer fornecer mais informações, mas complicaria os cálculos. No entanto, poderia permitir o uso de abordagens avançadas de gerenciamento de riscos que equilibrassem de maneira ideal os custos relacionados a (i) construção e (ii) risco de falha.

Karel Macek
fonte
Bem ... Eu posso não ser suficientemente claro. Eu só quero saber por que usar a teoria do valor extremo em vez da distribuição geral (toda a distribuição?) Que normalmente usamos?
cqcn1991 26/06
1
Se a função de distribuição cumulativa para qualquer instanciação, como a velocidade máxima diária do vento, for F (x), a função de distribuição cumulativa para o máximo de n instanciações independentes (por exemplo, n = 365 por um ano com velocidade máxima diária do vento ) é F ^ n (x). Isso é diferente de F (x).
Mark L. Stone