Compreendendo o conjugado Beta anterior na inferência bayesiana sobre uma frequência

11

A seguir, um trecho da Introdução às Estatísticas Bayesianas de Bolstad .

Eu estou lendo t

Para todos os especialistas por aí, isso pode ser trivial, mas não entendo como o autor conclui que não precisamos fazer nenhuma integração para calcular a probabilidade posterior de algum valor de . Entendo a segunda expressão, que é a proporcionalidade e de onde todos os termos vieram ( probabilidade x Prior) . Além disso, entendo, não precisamos nos preocupar com o denominador, pois apenas o numerador é diretamente proporcional. Mas passando para a terceira equação , não estamos esquecendo o denominador da regra de Bayes? Para onde foi? E o valor calculado pelas funções Gamma, não é uma constante? As constantes não são canceladas no teorema de Bayes?π

Jenna Maiz
fonte
5
Existe apenas uma constante possível, a saber, aquela que torna a função uma densidade de probabilidade.
Xian

Respostas:

10

O ponto é que sabemos a que o posterior é proporcional e acontece que não precisamos fazer a integração para obter o denominador (constante), porque reconhecemos que uma distribuição com densidade de probabilidade funciona proporcional a (como a posterior) é uma distribuição beta. Como a constante de normalização para esse pdf beta é , obtemos o pdf posterior sem integração. E sim, a constante de normalização no teorema de Bayes é uma constante (dados os dados observados e o anterior assumido), assim como a constante de normalização para a densidade posterior.Γ ( α + β )xα1×(1x)β1Γ(α+β)Γ(α)Γ(β)

Björn
fonte
8

A configuração

Você tem este modelo: As densidades para as quais são e, em particular, observe que f(p)=1

pbeta(α,β)x|pbinomial(n,p)
f(p)=1B(α,β)pα1(1p)β1
g(x|p)=(nx)px(1p)nx
1B(α,β)=Γ(α+β)Γ(α)Γ(β).

A versão implícita

Agora. A distribuição posterior é proporcional ao anterior multiplicada pela probabilidade . Podemos ignorar constantes (ou seja, coisas que não são ), produzindo: fgp

h(p|x)f(p)g(p|x)=pα1(1p)β1pxpnx=pα+x1(1p)β+nx1.

Isso tem o 'formato' de uma distribuição beta com os parâmetros e , e sabemos qual deve ser a constante de normalização correspondente para uma distribuição beta com esses parâmetros: . Ou, em termos de funções gama, Em outras palavras, podemos fazer um pouco melhor do que uma relação proporcional sem trabalho extra e ir direto para a igualdade: α+xβ+nx1/B(α+x,β+nx)

1B(α+x,β+nx)=Γ(n+α+β)Γ(α+x)Γ(β+nx).
h(p|x)=Γ(n+α+β)Γ(α+x)Γ(β+nx)pα+x1(1p)β+nx1.

Portanto, pode-se usar o conhecimento da estrutura de uma distribuição beta para recuperar facilmente uma expressão para o posterior, em vez de passar por uma integração bagunçada e coisas do gênero.

Ele chega até a parte posterior completa cancelando implicitamente as constantes de normalização da distribuição da articulação, o que pode ser confuso.

A versão explícita

Você também pode triturar as coisas proceduralmente, o que pode ser mais claro.

Na verdade, não é tanto tempo assim. Observe que podemos expressar a distribuição conjunta como e a distribuição marginal de como

f(p)g(x|p)=1B(α,β)(nx)pα+x1(1p)β+nx1
x
01f(p)g(x|p)dp=1B(α,β)(nx)01pα+x1(1p)β+nx1dp=1B(α,β)(nx)Γ(α+x)Γ(β+nx)Γ(α+β+nx)

Portanto, podemos expressar o posterior usando o teorema de Bayes por que é a mesma coisa que obtivemos anteriormente.

h(p|x)=f(p)g(x|p)01f(p)g(x|p)dp=1B(α,β)(nx)pα+x1(1p)β+nx11B(α,β)(nx)Γ(α+x)Γ(β+nx)Γ(α+β+n)=Γ(n+α+β)Γ(α+x)Γ(β+nx)pα+x1(1p)β+nx1
jtobin
fonte
7

Observações Gerais

Para tornar a resposta dada por @ Björn um pouco mais explícita e ao mesmo tempo mais geral, devemos lembrar que chegamos ao Teorema de Bayes de

p(θ|X)×p(X)=p(X,θ)=p(X|θ)×p(θ)

p(θ|X)=p(X|θ)×p(θ)p(X) (Bayes)

onde representa os dados observados e nosso parâmetro desconhecido sobre o qual gostaríamos de fazer inferências probabilísticas - no caso da pergunta, o parâmetro é uma frequência desconhecida . Por enquanto, não vamos nos preocupar se estamos falando de vetores ou escalares para simplificar.Xθπ

A marginalização no caso contínuo leva a

p(X)=+p(X,θ)dθ=+p(X|θ)×p(θ)dθ

onde a distribuição conjunta é igual a como vimos acima. É uma constante, pois após 'integrar' o parâmetro, ele depende apenas de termos constantes .p(X,θ)likelihood×prior

Portanto, podemos reformular o Teorema de Bayes como

p(θ|X)=Const.×p(X|θ)×p(θ) comConst.=1p(X)=1p(X|θ)×p(θ)dθ

e assim chegar à forma usual de proporcionalidade do teorema de Bayes .

Aplicação ao problema uma mão

Agora, estamos prontos para simplesmente conectar o que sabemos, já que a no caso da pergunta é da formalikelihood×prior

p(X,θ)=p(X|θ)×p(θ)=Aθa+y1(1θ)b+ny1=Aθa1(1θ)b1

onde , e onde coleta os termos constantes da probabilidade binomial e do beta anterior.a=a+yb=b+nyA=1B(a,b)(ny)

Agora podemos usar a resposta dada por @ Björn para descobrir que isso se integra à função Beta vezes a coleção de termos constantes para queB(a,b)A

p(X)=A01θa1(1θ)b1dθ=AB(a,b)

p(θ|X)=Aθa1(1θ)b1AB(a,b)=θa1(1θ)b1B(a,b)

Observe que qualquer termo constante na distribuição conjunta será sempre cancelado, uma vez que aparecerá no nominador e no denominador ao mesmo tempo (cf. resposta dada por @jtobin), para que realmente não tenhamos que nos preocupar.

Assim, reconhecemos que nossa distribuição posterior é de fato uma distribuição beta onde podemos simplesmente atualizar os parâmetros do anteriores e para chegar ao posterior. É por isso que o beta distribuído anteriormente é chamado de conjugado anterior .a=a+yb=b+ny

gwr
fonte
Esse raciocínio é semelhante à versão implícita do jtobin. Examinamos apenas partes dos tempos de probabilidade anteriores que contêm o parâmetro e coletamos tudo o mais na constante de normalização. Assim, consideramos a integração apenas como uma etapa final legítima, porque as constantes se cancelam como jtobin mostrou em sua versão explícita.
gwr