Eu tenho um conjunto de dados contendo atividade do usuário com 168 dimensões, onde desejo extrair clusters usando aprendizado não supervisionado. Não é óbvio para mim se devo usar uma abordagem de modelagem de tópicos na alocação de Dirichlet Latente (LDA) ou Modelos de Mistura Gaussiana (GMM), que é mais uma abordagem bayesiana. A esse respeito, tenho 2 perguntas relacionadas:
Qual é o principal diferenciador entre os dois métodos? Conheço o básico dos dois modelos, mas estou curioso sobre o que realmente diferencia um dos outros. Alguma coisa no problema / dados pode me dizer se um modelo é mais adequado?
Se eu aplicar os dois métodos aos meus dados, como posso comparar os resultados para ver qual método é melhor?
Atualizar
As 168 variáveis de atividade dos usuários são contagens de uma atividade, mantendo valores discretos positivos. Não há valor máximo, mas aproximadamente 90% das variáveis atingem valores no intervalo .
Pode fazer sentido simplesmente modelar todas essas variáveis de atividade como variáveis binárias que descrevem se é zero ou diferente de zero, mas ainda não sabemos o suficiente sobre o problema para determinar isso. A principal coisa que procuramos são insights sobre os diferentes grupos de atividades do usuário.
Respostas:
Eu não usaria modelos de mistura gaussianos , pois eles exigem que as distribuições constituintes sejam normais. Você tem contagens, portanto, o GMM é inadequado por definição.
A alocação de Dirichlet latente (divulgação completa: eu realmente não sei modelagem de tópicos) requer que seus dados sejam multinomiais , mas você pode ter contagens nesse caso - elas seriam contagens de ocorrências de diferentes categorias de uma variável. Outra possibilidade é que suas contagens sejam contadas com variáveis diferentes, como em ter várias variáveis de Poisson . Essa é uma pergunta ontológica sobre como você está pensando em seus dados.
Considere um exemplo simples em que vou ao supermercado porque quero frutas. Comprarei um certo número de maçãs, laranjas, pêssegos e bananas. Cada um deles pode ser considerado uma variável Poisson separada. Quando chego em casa, coloco todos eles em uma tigela de frutas. Mais tarde, quando estiver com vontade de fazer um lanche, posso pegar a tigela sem olhar e pegar dois pedaços de frutas (por exemplo, uma maçã e um pêssego). Isso pode ser considerado um empate de uma distribuição multinomial. Nos dois casos, tenho contagens de categorias, mas pensamos nelas de maneira diferente. No primeiro caso, as frutas que comprarei são conhecidas antes de chegar ao supermercado, mas o número comprado em cada categoria pode variar. No segundo caso, não sei quais frutas vou colher, mas sei que estou pegando duas das possíveis.
Se seus dados são como o exemplo da fruteira, o LDA pode ser apropriado para você. Por outro lado, se eles são como o exemplo do supermercado, você pode tentar a modelagem de mistura finita de Poisson . Ou seja, você pode usar a modelagem de mistura com distribuições diferentes de Gaussian / normal. GMMs são os mais comuns de longe; outras distribuições (como Poisson) são mais exóticas. Não sei o quão amplamente implementadas elas são em software. Se você usa R, o Google levou à descoberta de ? PoisMixClus no pacote HTSCluster e no pacote rebmix (observe que eu nunca usei ou fiz a modelagem de mistura de Poisson). Pode ser possível encontrar implementações para outros softwares também.
Adicionando alguns detalhes: eu diria que o LDA é pelo menos uma técnica bayesiana como o GMM.
Eu não dicotomizaria seus dados em zero / diferente de zero.
fonte