A seguir, um trecho da Introdução às Estatísticas Bayesianas de Bolstad .
Para todos os especialistas por aí, isso pode ser trivial, mas não entendo como o autor conclui que não precisamos fazer nenhuma integração para calcular a probabilidade posterior de algum valor de . Entendo a segunda expressão, que é a proporcionalidade e de onde todos os termos vieram ( probabilidade x Prior) . Além disso, entendo, não precisamos nos preocupar com o denominador, pois apenas o numerador é diretamente proporcional. Mas passando para a terceira equação , não estamos esquecendo o denominador da regra de Bayes? Para onde foi? E o valor calculado pelas funções Gamma, não é uma constante? As constantes não são canceladas no teorema de Bayes?
distributions
bayesian
beta-distribution
conjugate-prior
Jenna Maiz
fonte
fonte
Respostas:
O ponto é que sabemos a que o posterior é proporcional e acontece que não precisamos fazer a integração para obter o denominador (constante), porque reconhecemos que uma distribuição com densidade de probabilidade funciona proporcional a (como a posterior) é uma distribuição beta. Como a constante de normalização para esse pdf beta é , obtemos o pdf posterior sem integração. E sim, a constante de normalização no teorema de Bayes é uma constante (dados os dados observados e o anterior assumido), assim como a constante de normalização para a densidade posterior.Γ ( α + β )xα−1×(1−x)β−1 Γ(α+β)Γ(α)Γ(β)
fonte
A configuração
Você tem este modelo: As densidades para as quais são e, em particular, observe que f(p)=1
A versão implícita
Agora. A distribuição posterior é proporcional ao anterior multiplicada pela probabilidade . Podemos ignorar constantes (ou seja, coisas que não são ), produzindo:f g p
Isso tem o 'formato' de uma distribuição beta com os parâmetros e , e sabemos qual deve ser a constante de normalização correspondente para uma distribuição beta com esses parâmetros: . Ou, em termos de funções gama, Em outras palavras, podemos fazer um pouco melhor do que uma relação proporcional sem trabalho extra e ir direto para a igualdade:α+x β+n−x 1/B(α+x,β+n−x)
Portanto, pode-se usar o conhecimento da estrutura de uma distribuição beta para recuperar facilmente uma expressão para o posterior, em vez de passar por uma integração bagunçada e coisas do gênero.
Ele chega até a parte posterior completa cancelando implicitamente as constantes de normalização da distribuição da articulação, o que pode ser confuso.
A versão explícita
Você também pode triturar as coisas proceduralmente, o que pode ser mais claro.
Na verdade, não é tanto tempo assim. Observe que podemos expressar a distribuição conjunta como e a distribuição marginal de como
Portanto, podemos expressar o posterior usando o teorema de Bayes por que é a mesma coisa que obtivemos anteriormente.
fonte
Observações Gerais
Para tornar a resposta dada por @ Björn um pouco mais explícita e ao mesmo tempo mais geral, devemos lembrar que chegamos ao Teorema de Bayes de
onde representa os dados observados e nosso parâmetro desconhecido sobre o qual gostaríamos de fazer inferências probabilísticas - no caso da pergunta, o parâmetro é uma frequência desconhecida . Por enquanto, não vamos nos preocupar se estamos falando de vetores ou escalares para simplificar.X θ π
A marginalização no caso contínuo leva a
onde a distribuição conjunta é igual a como vimos acima. É uma constante, pois após 'integrar' o parâmetro, ele depende apenas de termos constantes .p(X,θ) likelihood×prior
Portanto, podemos reformular o Teorema de Bayes como
e assim chegar à forma usual de proporcionalidade do teorema de Bayes .
Aplicação ao problema uma mão
Agora, estamos prontos para simplesmente conectar o que sabemos, já que a no caso da pergunta é da formalikelihood×prior
onde , e onde coleta os termos constantes da probabilidade binomial e do beta anterior.a′=a+y b′=b+n−y A=1B(a,b)(ny)
Agora podemos usar a resposta dada por @ Björn para descobrir que isso se integra à função Beta vezes a coleção de termos constantes para queB(a′,b′) A
Observe que qualquer termo constante na distribuição conjunta será sempre cancelado, uma vez que aparecerá no nominador e no denominador ao mesmo tempo (cf. resposta dada por @jtobin), para que realmente não tenhamos que nos preocupar.
Assim, reconhecemos que nossa distribuição posterior é de fato uma distribuição beta onde podemos simplesmente atualizar os parâmetros do anteriores e para chegar ao posterior. É por isso que o beta distribuído anteriormente é chamado de conjugado anterior .a′=a+y b′=b+n−y
fonte