Como obter a função quantil quando uma forma analítica da distribuição não é conhecida

8

O problema vem da página 377-379 deste [0] documento.

Dada uma distribuição contínua F e um fixo zR, considere:

Lz(t)=PF(|zZ|t)

e

H(z)=Lz1(0.5)=medZF|zZ|

z Z F zLz1(u)=inf{t:Lz(t)>u}zZFz

L(t)=PF(H(Z)t)

Agora, eu não tenho uma expressão analítica para (na verdade, tenho certeza de que uma expressão analítica não é possível), mas, dado um CDF , posso usar facilmente um algoritmo de busca de raiz para obter para qualquer .F H ( z ) zH(z)FH(z)z

Nesta aplicação, o interesse é:

L1(0.5)=medZFH(Z)

Este é o valor médio do , mais uma vez, para .Z FH(Z)ZF

Agora, para obter , calculo (como explicado acima, usando um algoritmo de busca de raiz) os valores de correspondentes a muitos valores de em uma grade e tomo a mediana ponderada desses valores de (com pesos ) como minha estimativa de .H ( z ) z H ( z ) f ( z ) L - 1 ( 0,5 )L1(0.5)H(z)zH(z)f(z)L1(0.5)

Minhas perguntas são:

  • Existe uma abordagem mais precisa para obter (os autores do artigo não dizem como é computado) eL - 1 ( 0,5 )L1(0.5)L1(0.5)
  • Como a grade de valores de ser escolhida?z

    [0] Ola Hössjer, Peter J. Rousseeuw e Christophe Croux. Assintóticos de um estimador de uma propagação robusta funcional. Statistica Sinica 6 (1996), 375-388.

user603
fonte
De acordo com a notação e terminologia, devemos entender " " como mapeando qualquer F no número L z ( t ) [ F ] = P F ( | z - Z |t ) (é isso que " funcionais ", afinal). Mas então o que " L - 1 z ( q ) " pode significar? Pode ser uma distribuição (literalmente, o inverso de L z (Lz(t)F Lz(t)[F]=PF(|zZ|t)Lz1(q) ) ou, mais provavelmente, umnúmero(se fixarmos F e vista L z como umafunção--não! funcional), mas eu não vejo nenhuma maneira de interpretá-lo como umavariável aleatóriacom a distribuição F . Isso torna M q ( t ) bastante misterioso. Lz(t)FLzFMq(t)
whuber
Um pouquinho, mas ainda deve haver alguns erros de digitação. Talvez na definição de você pretendesse usar " Z " (uma variável aleatória com F para sua distribuição) em vez de " z "? Afinal, não se pode atribuir uma probabilidade a " H ( z ) t ", pois H ( z ) e t são números. Você está correndo um grande risco aqui de que um único erro de digitação em qualquer equação transforme sua pergunta em algo completamente não intencional e irrelevante; ainda pior, que você pode obter respostas corretas que vocêL(t)ZFzH(z)tH(z)tinterpretar mal! Ajudaria (muito) incluir explicações em inglês do que cada fórmula pretende representar.
whuber

Respostas:

1

A mediana é o ponto que minimiza a distância esperada :L1

medZf(Z)=argminmEz|f(Z)m|

Portanto, podemos simplificar sua expressão:

medz1Fmedz2F|z1z2|=argminm1Ez1F|m1argminm2Ez2F|m2|z1z2|||

Acho que esse é um problema de otimização em dois níveis , sobre o qual não sei muito, mas talvez haja técnicas padrão que você possa aplicar. Por outro lado, pode não ser mais rápido do que apenas calcular a mediana da amostra de medianas para amostras maiores até a convergência.

Ben Kuhn
fonte
1
Eu não acho que este aborda o problema, porque não estamos lidando com realizações de aqui, mas com F em si (se você quiser, eu estou interessado nos valores destes objetos quando o tamanho da amostra vai para ). Mas talvez eu entenda mal a sua resposta? FF
user603
1
Bem, acabei de perceber que cometi um erro com a derivação de qualquer maneira - as otimizações são realmente aninhadas. Acho que ainda existem técnicas de otimização que você pode usar, mas não sei se elas são melhores do que apenas tomar a segunda mediana em uma amostra grande como você tem feito.
Ben Kuhn
boa portanto, agora pergunto a mesma coisa;)
user603
1

Uma abordagem direta e orientada por dados para estimar a função quantil consiste em:

  • iniciando suas observações para gerar muito mais valores do que o que está na sua amostra original (especialmente valores além do intervalo da amostra limitada inicial). Uma boa estratégia é usar um esquema de simulação de bootstrap suavizado para evitar as principais limitações do bootstrap não paramétrico básico. Isso é equivalente à simulação de uma estimativa de densidade do kernel.
  • disso, é possível obter a função de distribuição cumulativa empírica (CDF) dos valores simulados ( ecdffunção em R). O inverso do CDF nada mais é do que a função quantil ( quantile função em R). Veja aqui para obter os valores e plotar sua função quantil. Você pode até obter faixas de confiança.

Um pré-requisito, porém, é que você faça uma amostra de observações suficientes para pelo menos ter uma boa idéia da forma do PDF subjacente.

Antoine
fonte
Por que você acha que obtém melhor precisão ao inicializar?
Kjetil b halvorsen
o destino de toda amostra finita é que ela não contém todo o espectro de observações que podem ocorrer. Por exemplo, o fluxo máximo de corrente de um rio observado ao longo de 100 anos obviamente não é o máximo absoluto que pode acontecer. Portanto, suas estimativas da inundação de 500 anos (quantil de 0,998) ou de 1000 anos (quantil de 0,999) com base em sua amostra limitada serão tendenciosas (o risco será subestimado ). Pelo contrário, se você gerar centenas de milhares de novas observações, simulando (através de bootstrap suavizados ou qualquer outra técnica), as estimativas serão mais precisos
Antoine
Isso é um mal entendido! Os valores na amostra de inicialização são todos originários da mesma amostra limitada e finita e não contêm mais informações que a própria amostra. O bootstrap (como outras técnicas analíticas) só pode nos ajudar a entender melhor quais informações estão na amostra, não pode aumentar essas informações.
Kjetil b halvorsen
Não! Eu estou falando sobre o bootstrap suavizado . Ele gera observações nunca vistas, que excedem o intervalo da amostra original. Clique no link da minha resposta acima.
Antoine
@ Antoine: OK, mas isso não muda nada no meu comentário. Aqueles "obs" suavizados são gerados a partir do seu modelo do fenômeno, não o próprio phemonenon, portanto não são "dados".
Kjetil b halvorsen
1

Então, acho que a melhor maneira de obter

medZFH(Z)

é:

  1. n{H(zi)}i=1nH(zi)n{zi}i=1n(FZ1(ϵ),FZ1(1ϵ))
  2. {H(zi)}i=1nFZ(zi)
user603
fonte