P: Qual é a maneira padrão de agrupar dados usando um Processo Dirichlet?
Ao usar Gibbs, os clusters de amostragem aparecem e desaparecem durante a amostragem. Além disso, temos um problema de identificabilidade, uma vez que a distribuição posterior é invariável às remarcações de cluster. Portanto, não podemos dizer qual é o cluster de um usuário, mas sim que dois usuários estão no mesmo cluster (ou seja, ).
Podemos resumir as atribuições de classe para que, se for a atribuição de cluster do ponto , agora não apenas mas ?
Essas são as alternativas que encontrei e por que acho que são incompletas ou equivocadas.
(1) Amostragem DP-GMM + Gibbs + matriz de confusão baseada em pares
Para usar um Modelo de Mistura Gaussiana do Processo Dirichlet (DP-GMM) para um agrupamento, implementei este artigo, onde os autores propõem um DP-GMM para estimativa de densidade usando amostragem de Gibbs.
Para explorar o desempenho do cluster, eles dizem:
Como o número de componentes muda na cadeia [MCMC], seria necessário formar uma matriz de confusão mostrando a frequência de cada par de dados atribuído ao mesmo componente para toda a cadeia, veja a Fig. 6.
Contras : Este não é um cluster "completo" real, mas um cluster em pares. A figura parece muito boa porque conhecemos os conjuntos reais e organizamos a matriz de acordo.
(2) Amostragem DP-GMM + Gibbs + amostra até que nada mude
Estive pesquisando e encontrei algumas pessoas que afirmavam fazer cluster com base no Dirichlet Process usando um amostrador Gibbs. Por exemplo, este post considera que a cadeia converge quando não há mais alterações no número de clusters ou nos meios e, portanto, obtém os resumos a partir daí.
Contras : Não tenho certeza se isso é permitido, pois, se não estiver errado:
(a) pode haver trocas de etiquetas durante o MCMC.
(b) mesmo na distribuição estacionária, o amostrador pode criar alguns aglomerados de tempos em tempos.
(3) Amostragem DP-GMM + Gibbs + escolher amostra com partição mais provável
Neste artigo , os autores dizem:
Após um período de “burn-in”, amostras imparciais da distribuição posterior do IGMM podem ser coletadas no amostrador Gibbs. Um agrupamento rígido pode ser encontrado ao desenhar muitas dessas amostras e usar a amostra com a maior probabilidade conjunta das variáveis indicadoras de classe. Usamos uma implementação modificada do IGMM, escrita por M. Mandel .
Contras : A menos que seja um Sampler de Gibbs recolhido, onde apenas amostramos as atribuições, podemos calcular mas não o marginal . (Seria uma boa prática obter o estado com mais alto ?)
(4) DP-GMM com inferência variacional :
Vi que algumas bibliotecas usam inferência variacional. Não conheço muito a inferência variacional, mas acho que você não tem problemas de identificação lá. No entanto, gostaria de seguir os métodos do MCMC (se possível).
Qualquer referência seria útil.
Respostas:
A razão pela qual digo que essa resposta é "experimental" é que não tenho certeza se designar um valor como "parâmetro" é apenas uma questão de semântica, ou se há uma definição mais técnica / teórica que um dos usuários que possuem doutorado aqui seria capaz de elucidar.
fonte
Eu só queria compartilhar alguns recursos sobre o assunto, esperando que alguns deles pudessem ser úteis para responder a essa pergunta. Existem muitos tutoriais sobre processos Dirichlet (DP) , incluindo alguns sobre o uso do DP para cluster . Eles variam de "suave", como este tutorial de apresentação , a mais avançado, como este tutorial de apresentação . Esta última é uma versão atualizada do mesmo tutorial, apresentada por Yee Whye Teh no MLSS'07. Você pode assistir ao vídeo dessa conversa com slides sincronizados aqui . Falando sobre vídeos, você pode assistir a outra conversa interessante e relevante com slides de Tom Griffith aqui . Em termos dos tutoriais formatados em papel, este tutorial é um bom e bastante popular.
Por fim, gostaria de compartilhar alguns artigos relacionados. Este artigo sobre DP hierárquico parece ser importante e relevante. O mesmo se aplica a este artigo de Radford Neal. Se você estiver interessado na modelagem de tópicos , a alocação latente de Dirichlet (LDA) provavelmente também deve estar no seu radar. Nesse caso, este artigo muito recente apresenta uma abordagem LDA nova e muito aprimorada. Em relação ao domínio da modelagem de tópicos, eu recomendaria a leitura de trabalhos de pesquisa de David Blei e seus colaboradores. Este artigo é introdutório, o restante você encontra na página de publicações de pesquisa. Percebo que alguns dos materiais que recomendei podem ser muito básicos para você, mas pensei que, ao incluir tudo o que me deparei no tópico, aumentaria as chances de você encontrar a resposta .
fonte