Mas não sei qual é a diferença entre classificação de texto e modelos de tópico em documentos
Text Classification
é uma forma de aprendizado supervisionado; portanto, o conjunto de classes possíveis é conhecido / definido com antecedência e não muda.
Topic Modeling
é uma forma de aprendizado não supervisionado (semelhante ao agrupamento); portanto, o conjunto de tópicos possíveis é desconhecido a priori . Eles são definidos como parte da geração dos modelos de tópicos. Com um algoritmo não determinístico como o LDA, você terá diferentes tópicos cada vez que executa o algoritmo.
Text classification
geralmente envolve classes mutuamente exclusivas - pense nelas como baldes.
Mas não é necessário: dado o tipo certo de dados de entrada rotulados, você pode definir uma série de classificadores binários não mutuamente exclusivos.
Topic modeling
geralmente não é mutuamente exclusivo: o mesmo documento pode ter sua distribuição de probabilidade espalhada por muitos tópicos. Além disso, também existem métodos de modelagem hierárquica de tópicos.
Também posso usar o modelo de tópico para os documentos para identificar um tópico posteriormente. Posso usar a classificação para classificar o texto dentro desses documentos?
Se você está perguntando se pode pegar todos os documentos atribuídos a um tópico por um algoritmo de modelagem de tópicos e aplicar um classificador a essa coleção, sim, certamente você pode fazê-lo.
Não tenho certeza se faz muito sentido: no mínimo, você precisará escolher um limite para a distribuição de probabilidade do tópico acima da qual incluirá documentos em sua coleção (normalmente 0,05-0,1).
Você pode elaborar seu caso de uso?
A propósito, há um ótimo tutorial sobre modelagem de tópicos usando a biblioteca MALLET para Java disponível aqui: Introdução à Modelagem de Tópicos e MALLET
Charlie Greenbacker
fonte