Estou trabalhando em um problema com as seguintes qualidades.
- Os dados disponíveis são numerosos - da ordem de
- O CDF tem suporte sobre números reais não negativos.
- Eu não sei .
- Podemos assumir que os dados são iid.
- Estou tentando estimar a probabilidade de uma amostra futura extraída de ficar abaixo do mínimo da amostra . Mais precisamente, quero manter essa probabilidade abaixo de um valor específico
Quando se trata de intervalos de confiança , a abordagem é escolher algum valor (porque tem suporte não negativo) e usar , em seguida, deduza intervalos binomiais de confiança da cauda esquerda usando uma dentre várias opções, como a aplicação do CLT ou Casella's ou Jeffreys's ou Agresti's ou qualquer outro método.
Isso parece frágil para grandes e pequenos , especialmente porque . Além disso, no meu caso, estamos estimando um intervalo de previsão para as observações futuras. Existe um intervalo de previsão binomial que funcione bem nessas circunstâncias?
Uma abordagem bayesiana estimaria diretamente e funcionaria a partir daí. Isso parece mais difícil do que o estritamente necessário para o escopo restrito desse problema.
A resposta "Não, a vida é injusta e não há uma boa solução para este problema" também é útil se houver uma citação interessante.
fonte
Respostas:
Existe um limite de previsão não paramétrico simples. Recorde-se que um limite preditivo é um procedimento que consiste em duas amostras independentes e , dois estatísticas e , e um tamanho . Quando a chance de que seja menor que é ou menor, dizemos que é um limite de previsão inferior unilateral para do tamanho . O PL em questão utiliza o menor dosX=x1 1, ... ,xn Y=y1 1, ... ,ym t s 1 - α s ( Y) t ( X) α t s 1 - α xEu para . Pretende-se que toda a deve ser igual ou superior ao PL com alta probabilidade. Equivalentemente, é o menor de todos os .t ( X) yj s ( Y) yj
Este PL funciona quando as observações são independentes e identicamente distribuídas e as observações adicionais também são iid e independentes das primeiras observações. Essas suposições implicam que todas as observações são permutáveis, o que, por sua vez (facilmente) implica que a menor observação de todas elas é encontrada entre os primeiros com probabilidade pelo menos . O tamanho é a chance de que uma (pelo menos) de todas as observações vinculadas à menor esteja dentro dos valores de . Essa chance não é menor que . Quando a distribuição subjacente comum é contínua, é exatamenten m n n + m n n / ( n + m ) n X n / ( n + m ) n / ( n + m ) .
Por exemplo, o menor dos valores de é um limite de previsão mais baixo para valores adicionais. O menor dos valores de é apenas um limite de previsão mais baixo para valores adicionais.n = 95 95 % m = 5 n =106 50 % m =106
Considerações semelhantes (que necessitam de sofisticação mais combinatória) são utilizados para calcular a cobertura de qualquer ordem estatística qua limite preditivo. Consulte a seção 5.4 da Hahn & Meeker para obter uma sinopse ("Intervalos de previsão sem distribuição para conter pelo menos de observações futuras").k m
Referência
Gerald J. Hahn e William Q. Meeker, Intervalos Estatísticos, Um Guia Para Profissionais. J. Wiley & Sons, 1991.
fonte