Laplace suavização e Dirichlet antes

11

No artigo da wikipedia sobre suavização de Laplace (ou suavização aditiva), diz-se que, do ponto de vista bayesiano,

isso corresponde ao valor esperado da distribuição posterior, usando uma distribuição simétrica de Dirichlet com o parâmetro como anterior.α

Estou confuso sobre como isso é realmente verdade. Alguém poderia me ajudar a entender como essas duas coisas são equivalentes?

Obrigado!

DanielX2010
fonte

Respostas:

10

Certo. Esta é essencialmente a observação de que a distribuição de Dirichlet é um conjugado anterior para a distribuição multinomial. Isso significa que eles têm a mesma forma funcional. O artigo menciona isso, mas vou enfatizar que isso decorre do modelo de amostragem multinomial. Então, indo direto ao assunto ...

xKN=i=1KxixπDir(α)K

παx

p(π|x,α)=p(x|π)p(π|α)

p(x|π)

p(x|π)=N!x1!xk!π1x1πkxk

e

p(π|α)=1B(α)i=1Kπiα1

B(α)=Γ(α)KΓ(Kα)

p(π|α,x)=p(x|π)p(π|α)i=1Kπixi+α1.

Em outras palavras, o posterior também é Dirichlet. A questão era sobre a média posterior. Como o posterior é Dirichlet, podemos aplicar a fórmula da média de um Dirichlet para descobrir que,

E[πi|α,x]=xi+αN+Kα.

Espero que isto ajude!

Sim
fonte
p(π|α,x)=p(x|π)p(π|α)/p(x|α),p(π|α,x)=p(x|π)p(π|α)?π, mas escrever uma igualdade não é verdade, eu acho.
Michal
α+nsuccessα+β+nsuccess+nfailuresα+nsuccess1α+β+nsuccess+nfailures2α=β=1
0

Como observação lateral, eu também gostaria de acrescentar outro ponto à derivação acima, que não é realmente sobre a questão principal. No entanto, falando sobre os anteriores de Dirichlet na distribuição multinomial, pensei em mencionar que qual seria a forma da função de probabilidade se considerarmos as probabilidades como variáveis ​​incômodas.

p(π|α,x)i=1Kπixi+α1p(x|α)

p(x|α)=i=1Kp(x|πi,α)p(π|α)dπ1dπ2...dπK

p(x|α)=Γ(Kα)Γ(N+Kα)i=1KΓ(xi+α)Γ(α)

N

omidi
fonte