Colocando um prior no parâmetro de concentração em um processo de Dirichlet

9

A maior parte disso é de fundo, pule para o final se você já souber o suficiente sobre as misturas de processos do Dirichlet . Suponha que eu estou modelando alguns dados como provenientes de uma mistura de processos de Dirichlet, ou seja, permita que e condicional em assumamFD(αH)F

Yiiidf(y|θ)F(dθ).

Aqui e é a medida base anterior. Acontece que, para cada observação , se eu souber o latente associado , a probabilidade de neste modelo é onde é o número de valores distintos de (a medida aleatória é discreta quase certamente). Escobar e West desenvolvem o seguinte esquema para amostragem usando um Gamma anterior; primeiro, eles escrevemα>0αHYiθiα

L(α|t)αtΓ(α)Γ(α+n)
tθiFα
π(α|t)π(α)αtΓ(α)Γ(α+n)π(α)αt1(α+n)B(α+1,n)=π(α)αt1(α+n)01xα(1x)n1 dx,
que é a função beta. Então observe que, se introduzirmos um parâmetro latente , a probabilidade terá a forma de uma mistura de distribuições Gamma e usaremos isso para escrever um amostrador Gibbs.B(,)XBeta(α+1,n)

Agora minha pergunta. Por que não podemos simplesmente escrever e vez de usar uma mistura de distribuições Gama, use uma única distribuição Gama? Se introduzirmos o , não devo fazer a mesma coisa, mas sem precisar usar a mistura?

L(α|t)αtΓ(α)Γ(α+n)=αtΓ(n)Γ(α)Γ(α+n)Γ(n)=αtB(α,n)Γ(n)αt01xα1(1x)n1 dx,
XBeta(α,n)

Edite para obter mais detalhes Mais detalhes: Para preencher algumas lacunas, o argumento em Escobar e West é que, deixando ter uma distribuição Gamma com a forma e signifique , e, portanto, podemos introduzir um latente para queOs condicionais completos são uma distribuição para e uma mistura de a e umαaa/b

π(α|t)αa+t2(α+n)ebα01xα(1x)n1 dx
X
π(α,x|t)αa+t2(α+n)ebαxα(1x)n1.
Beta(α+1,n)XG(a+t,blog(x))G(a+t1,blog(x)) para .α

Pelo mesmo argumento, obtive o mesmo resultado, mas com para e para . Isso me parece mais fácil; por que eles não fazem isso?Beta(α,n)XG(a+t,blog(x))α

cara
fonte

Respostas:

3

Não vejo como o que você escreveu é fundamentalmente diferente de Escobar e West.

π(α|t)π(α)π(t|α)=π(α)L(α|t)π(α)αtΓ(α)Γ(α+n)π(α)αtΓ(α)Γ(n)Γ(α+n)=π(α)αtB(α,n)=π(α)αt1(α+n)B(α+1,n)
onde a penúltima linha é como você a possui e a última linha é como E&W e são iguais desde que n) \ end {eqnarray *} lembrando que
αB(α,n)=αΓ(α)Γ(n)Γ(α+n)=(αΓ(α))Γ(n)(α+n)(Γ(α+n)(α+n))=(α+n)Γ(α+1)Γ(n)Γ(α+n+1)=(α+n)B(α+1,n)
Γ(z+1)=zΓ(z) .

Suponho que eles preferiram a formulação deles à sua, porque ela possui apenas o termo da função Beta, não o produto de uma Beta e uma Gamma, mas posso estar errado. Não segui completamente o último pedaço que você escreveu, você poderia ser mais explícito sobre seu esquema de amostragem?

Daniel Johnson
fonte
Adicionado detalhes extras em minha postagem.
cara