Eu usei o LDA em um corpus de documentos e encontrei alguns tópicos. A saída do meu código é duas matrizes que contêm probabilidades; uma probabilidade de tópico de documento e a outra probabilidade de tópico de palavra. Mas, na verdade, não sei como usar esses resultados para prever o tópico de um novo documento. Estou usando a amostra de Gibbs. Alguém sabe como? obrigado
text-mining
topic-models
Hossein
fonte
fonte
Respostas:
Eu tentaria 'dobrar'. Isso se refere a pegar um novo documento, adicioná-lo ao corpus e executar a amostra Gibbs apenas nas palavras desse novo documento , mantendo as atribuições de tópicos dos documentos antigos iguais. Isso geralmente converge rapidamente (talvez de 5 a 10 a 20 iterações), e você não precisa provar seu corpus antigo, por isso também é rápido. No final, você terá a atribuição de tópicos para cada palavra no novo documento. Isso fornecerá a distribuição dos tópicos nesse documento.
No seu amostrador Gibbs, você provavelmente tem algo semelhante ao seguinte código:
A dobragem é a mesma, exceto que você começa com as matrizes existentes, adiciona os tokens do novo documento a eles e faz a amostragem apenas dos novos tokens. Ou seja:
fonte