Existe uma maneira numericamente estável de calcular valores de uma distribuição beta para alfa inteiro grande, beta (por exemplo, alfa, beta> 1000000)?
Na verdade, eu só preciso de um intervalo de confiança de 99% no modo, se isso de alguma forma facilitar o problema.
Acrescentar : desculpe, minha pergunta não foi tão clara quanto pensei. O que eu quero fazer é o seguinte: eu tenho uma máquina que inspeciona produtos em uma correia transportadora. Alguma fração desses produtos é rejeitada pela máquina. Agora, se o operador da máquina alterar alguma configuração de inspeção, quero mostrar a ele a taxa estimada de rejeição e algumas dicas sobre a confiabilidade da estimativa atual.
Portanto, pensei em tratar a taxa de rejeição real como uma variável aleatória X e calcular a distribuição de probabilidade para essa variável aleatória com base no número de objetos rejeitados N e objetos aceitos M. Se eu assumir uma distribuição anterior uniforme para X, essa é uma distribuição beta dependendo de N e M. Eu posso exibir essa distribuição diretamente para o usuário ou encontrar um intervalo [l, r] para que a taxa de rejeição real esteja nesse intervalo com p> = 0,99 (usando a terminologia do shabbychef) e exibir isso intervalo. Para M, N pequeno (ou seja, imediatamente após a alteração do parâmetro), posso calcular a distribuição diretamente e aproximar o intervalo [l, r]. Mas para M, N grande, essa abordagem ingênua leva a erros de sub-fluxo, porque x ^ N * (1-x) ^ M é pequeno demais para ser representado como um flutuador de precisão dupla.
Acho que minha melhor aposta é usar minha distribuição beta ingênua para M, N pequeno e mudar para uma distribuição normal com a mesma média e variação assim que M, N exceder algum limite. Isso faz sentido?
Respostas:
Uma aproximação normal funciona extremamente bem, especialmente nas caudas. Use uma média de e uma variação de α βα / ( α + β) . Por exemplo, o erro relativo absoluto na probabilidade de cauda em uma situação difícil (em que a distorção pode ser preocupante), comoα=106,β=108atingeumpico em torno de0,00026e é menor que0,00006quando você tem mais de 1 SD da média. (Issonãoocorreporque o beta é tão grande: comα=β=106, os erros relativos absolutos são limitados por0,0000001α β( α + β)2( 1 + α + β) α = 106, β= 108 0,00026 0,00006 α = β= 106 0,0000001 .) Portanto, essa aproximação é excelente para qualquer finalidade que envolva intervalos de 99%.
À luz das edições da pergunta, observe que não se computa integrais beta integrando o integrando: é claro que você terá subfluxos (embora eles realmente não importem, porque não contribuem significativamente para a integral) . Existem muitas, muitas maneiras de calcular a integral ou aproximar, conforme documentado em Johnson & Kotz (Distribuições em Estatística). Uma calculadora online pode ser encontrada em http://www.danielsoper.com/statcalc/calc37.aspx . Você realmente precisa do inverso dessa integral. Alguns métodos para calcular o inverso estão documentados no site do Mathematica em http://functions.wolfram.com/GammaBetaErf/InverseBetaRegularized/. O código é fornecido em Receitas numéricas (www.nr.com). Uma calculadora on-line realmente interessante é o site da Wolfram Alpha (www.wolframalpha.com): digiteα = 1000000 , β= 1000001
inverse beta regularized (.005, 1000000, 1000001)
o ponto final esquerdo einverse beta regularized (.995, 1000000, 1000001)
o ponto final direito ( , intervalo de 99%).fonte
Um experimento gráfico rápido sugere que a distribuição beta se parece muito com uma distribuição normal quando alfa e beta são muito grandes. Ao pesquisar no Google "limite de distribuição beta normal", encontrei http://nrich.maths.org/discus/messages/117730/143065.html?1200700623 , que fornece uma 'prova' de navegação manual.
A página da Wikipédia para a distribuição beta fornece sua média, modo (v próximo à média para alfa e beta grande) e variação, para que você possa usar uma distribuição normal com a mesma média e variação para obter uma aproximação. Se é uma aproximação suficientemente boa para seus propósitos, depende de quais são seus propósitos.
fonte
fonte
Por exemplo
normalmente produz uma saída como
isto é, valores p típicos são de cerca de 0,2.
produz algo como
com valores de p típicos em torno de 0,01
A
qqnorm
função R também fornece uma visualização útil, produzindo um gráfico muito direto para a distribuição log-odds indicando normalidade aproximada. A distribuição da variável beta dsitribute produz uma curva distinta indicando não normalidadefonte