Qual intervalo de previsão binomial funciona bem para probabilidades de cauda, ​​ou seja, para grandes

7

Estou trabalhando em um problema com as seguintes qualidades.

  • Os dados disponíveis são numerosos - da ordem dex106
  • O CDF tem suporte sobre números reais não negativos.FX
  • Eu não sei .FX
  • Podemos assumir que os dados são iid.
  • Estou tentando estimar a probabilidade de uma amostra futura extraída de ficar abaixo do mínimo da amostra . Mais precisamente, quero manter essa probabilidade abaixo de um valor específicoFXx(1)α.

Quando se trata de intervalos de confiança , a abordagem é escolher algum valor (porque tem suporte não negativo) e usar , em seguida, deduza intervalos binomiais de confiança da cauda esquerda usando uma dentre várias opções, como a aplicação do CLT ou Casella's ou Jeffreys's ou Agresti's ou qualquer outro método.k>0xFX^(k)=p^=#(xik)n

Isso parece frágil para grandes n e pequenos k , especialmente porque k=x(1) . Além disso, no meu caso, estamos estimando um intervalo de previsão para as observações futuras. Existe um intervalo de previsão binomial que funcione bem nessas circunstâncias?

Uma abordagem bayesiana estimaria F diretamente e funcionaria a partir daí. Isso parece mais difícil do que o estritamente necessário para o escopo restrito desse problema.

A resposta "Não, a vida é injusta e não há uma boa solução para este problema" também é útil se houver uma citação interessante.

Sycorax diz restabelecer Monica
fonte
2
Seu quarto (último) marcador sugere que você não está computando intervalos de confiança: você parece estar solicitando a cobertura de um limite de previsão . Essa é uma interpretação correta?
whuber
@whuber Sim, está correto: teremos alguns dados futuros e gostaria de estimar a probabilidade de um desses novos valores ficar abaixo da amostra mínima que eu tenho hoje.
Sycorax diz Restabelecer Monica
2
Acho que você está familiarizado com este tópico: stats.stackexchange.com/questions/82720/… , mas publicando-o para referência (consulte também o artigo citado).
Tim
@ Tim Sim, obrigado. Na verdade, eu editei esse link em uma de minhas edições. A recomendação do intervalo CA parece (1) abordar apenas a condição grande , mas não a pequena condição e (2) referir-se a intervalos de confiança e vice-previsão. Minha leitura pode ser falha. np
Sycorax diz Restabelecer Monica
11
@ Sycorax sua leitura não é falha, eu estou fornecendo este para referência, uma vez que está relacionado, mas você está certo, isso é apenas sobre ICs.
Tim

Respostas:

8

Existe um limite de previsão não paramétrico simples. Recorde-se que um limite preditivo é um procedimento que consiste em duas amostras independentes e , dois estatísticas e , e um tamanho . Quando a chance de que seja menor que é ou menor, dizemos que é um limite de previsão inferior unilateral para do tamanho . O PL em questão utiliza o menor dosX=x1,,xnY=y1,,ymts 1αs(Y)t(X)αts 1αxi para . Pretende-se que toda a deve ser igual ou superior ao PL com alta probabilidade. Equivalentemente, é o menor de todos os .t(X)yjs(Y)yj

Este PL funciona quando as observações são independentes e identicamente distribuídas e as observações adicionais também são iid e independentes das primeiras observações. Essas suposições implicam que todas as observações são permutáveis, o que, por sua vez (facilmente) implica que a menor observação de todas elas é encontrada entre os primeiros com probabilidade pelo menos . O tamanho é a chance de que uma (pelo menos) de todas as observações vinculadas à menor esteja dentro dos valores de . Essa chance não é menor que . Quando a distribuição subjacente comum é contínua, é exatamentenmnn+mnn/(n+m)nXn/(n+m)n/(n+m) .

Por exemplo, o menor dos valores de é um limite de previsão mais baixo para valores adicionais. O menor dos valores de é apenas um limite de previsão mais baixo para valores adicionais.n=9595%m=5n=10650%m=106

Considerações semelhantes (que necessitam de sofisticação mais combinatória) são utilizados para calcular a cobertura de qualquer ordem estatística qua limite preditivo. Consulte a seção 5.4 da Hahn & Meeker para obter uma sinopse ("Intervalos de previsão sem distribuição para conter pelo menos de observações futuras").km

Referência

Gerald J. Hahn e William Q. Meeker, Intervalos Estatísticos, Um Guia Para Profissionais. J. Wiley & Sons, 1991.

whuber
fonte
Estendendo essa linha de raciocínio ainda mais, é exatamente assim que chegamos ao procedimento de inicialização de duas amostras para estimar quantis descritos em Hogg McKean e Craig: a inicialização se aproxima do resultado combinatório mais elaborado.
Sycorax diz Restabelecer Monica
Isso é concebível. (Eu não estou familiarizado com H, McK e C.) Mas se isso é tudo o que o bootstrap está fazendo, você deve considerar obter respostas exatas (com muito menos computação) usando as fórmulas combinatórias. Eles têm a vantagem de permitir que você inverta o problema, a fim de encontrar tamanhos de amostra para atingir o tamanho desejado em um PL, por exemplo.
whuber
11
É um texto introdutório de estatísticas matemáticas, então acho que o procedimento está descrito por razões principalmente pedagógicas. Seu ponto de vista sobre quantidades exatas e inversão é bem aceito. Obrigado por esta resposta bem considerada.
Sycorax diz Restabelecer Monica
Estou tropeçando em parte do raciocínio. A probabilidade de que o próximo sorteio de seja igual ou inferior a algum é . Do outro lado iid desenha, o número de chama abaixo tem um binómio de distribuição. Será que a distinção entre a sua resposta e esse modelo binomial é que o modelo binomial supõe que é fixo na frente, enquanto no meu problema, estamos interessados ​​em ? FkF(k)mkm,F(k)kx(1)
Sycorax diz Restabelecer Monica
11
Eu acredito que sim. De fato, de acordo com o terceiro item da pergunta, você realmente não sabe o que é para qualquer - o melhor que você pode fazer (se precisar) é estimar. F(k)k
whuber