Com o que os hiperparâmetros alfa e beta contribuem na alocação de Dirichlet latente?

19

O LDA possui dois hiperparâmetros, ajustando-os muda os tópicos induzidos.

O que os hiperparâmetros alfa e beta contribuem para o LDA?

Como o tópico muda se um ou outro hiperparâmetro aumenta ou diminui?

Por que eles são hiperparâmetros e não apenas parâmetros?

alvas
fonte
aqui está uma boa resposta parcial: stats.stackexchange.com/a/37444/156252
Greenish

Respostas:

16

A distribuição Dirichlet é uma distribuição multivariada. Podemos denotar os parâmetros do Dirichlet como um vetor de tamanho K da forma ~ , em queumaé o vector de tamanhoKdos parâmetros, eΣxi=1.1B(uma)EuxEuumaEu-1umaKxEu=1

Agora o LDA usa algumas construções como:

  • um documento pode ter vários tópicos (por causa dessa multiplicidade, precisamos da distribuição Dirichlet); e há uma distribuição Dirichlet que modela essa relação
  • as palavras também podem pertencer a vários tópicos, quando você as considera fora de um documento; então aqui precisamos de outro Dirichlet para modelar isso

As duas anteriores são distribuições que você realmente não vê nos dados; é por isso que é chamado latente ou oculto.

xθ

p(θ|x)=p(x|θ)p(θ|α)p(x|α)probabilidade posterior=probabilidade×probabilidade préviaprobabilidade marginal
α

Os parâmetros do anterior são chamados hiperparâmetros . Assim, no LDA, ambas as distribuições de tópicos, sobre documentos e sobre palavras também têm anteriores correspondentes, que são denotados geralmente com alfa e beta, e porque os parâmetros das distribuições anteriores são chamados hiperparâmetros.

αkx

αk

αk

αk

Além disso, observe que os valores dos parâmetros anteriores produzem PDFs suaves da distribuição, pois os valores dos parâmetros estão próximos de 1. Portanto, se você tem grande confiança de que algo está claramente distribuído de uma maneira que você sabe, com um alto grau de confiança, valores distantes de 1 em valor absoluto devem ser utilizados, se você não tiver esse tipo de conhecimento, pois valores próximos a 1 codificariam essa falta de conhecimento. É fácil ver por que 1 desempenha esse papel na distribuição de Dirichlet a partir da fórmula da própria distribuição.

αkαk

Espero que tenha ajudado.

rapaio
fonte
Nós esperamos o mesmo sobre o suporte tex! : D
Rubens
11

Supondo distribuições simétricas de Dirichlet (por simplicidade), um baixo valor alfa coloca mais peso em ter cada documento composto apenas por alguns tópicos dominantes (enquanto um valor alto retornará muitos tópicos relativamente dominantes). Da mesma forma, um baixo valor beta coloca mais peso em ter cada tópico composto por apenas algumas palavras dominantes.

Alireza
fonte