Comparando dois Corpora usando o Modelo de Tópico

6

Quero comparar dois corpora (duas coleções diferentes de textos) usando a Modelagem de Tópicos. Treinei o modelo separadamente nas duas coleções e correspondi manualmente a tópicos semelhantes com base em suas palavras frequentes.

Fiquei me perguntando se existe uma maneira sistemática de comparar os tópicos entre dois corpora e medir sua semelhança.

saghi
fonte

Respostas:

4

A meu ver, essa não é uma abordagem válida.

Observe que não há um modelo de tópico exclusivo (dados alguns parâmetros como o número de tópicos e o algoritmo para modelagem de tópicos) para um corpus. Diferentes execuções com diferentes sementes aleatórias fornecerão diferentes modelos de tópicos para o mesmo corpus.

Portanto, qualquer comparação se resume a uma comparação de modelos de tópicos específicos, mas não a uma comparação dos corpora.

Uma abordagem com alguma validade melhor é combinar os dois corpora em um super corpus, criar um modelo de tópico e, em seguida, investigar a distribuição dos tópicos com relação aos sub corpora formados pelos corpora originais 1 e 2.


fonte
Obrigado pela ótima resposta. O que você quer dizer com "investigar a distribuição dos tópicos em relação aos sub-corpora formados pelos corpora originais 1 e 2"? Você pode elaborar mais?
Smith
11
@ Smith: Você já fez um modelo de tópico? Você deve obter uma matriz de documento-tópico do seu modelo de tópico mostrando para cada documento no corpus uma composição de tópico. Aglomere esses dados de acordo com a subcorpora da qual o seu corpus é feito e você os possui.