Modelos de tópicos para documentos curtos

14

Inspirado por essa pergunta , estou me perguntando se algum trabalho foi feito sobre modelos de tópicos para grandes coleções de textos extremamente curtos. Minha intuição é que o Twitter seja uma inspiração natural para esses modelos. No entanto, a partir de algumas experiências limitadas, parece que os modelos de tópicos padrão (LDA, etc.) apresentam um desempenho muito ruim nesse tipo de dados.

Alguém aí conhece algum trabalho que tenha sido feito nessa área? Este artigo fala sobre a aplicação do LDA no Twitter, mas estou realmente interessado em saber se existem outros algoritmos com melhor desempenho no contexto de documentos curtos.

Martin O'Leary
fonte
2
O Twitter é um conjunto de dados particularmente difícil para modelagem de tópicos, não apenas pelo tamanho pequeno dos 'documentos', mas também pelo tipo de texto. As pessoas tendem a usar várias taquigrafia, o que dificulta ainda mais a identificação de co-ocorrências.
Nick
Veja a lista de bons papéis e os correspondentes códigos de fonte para a modelagem tópico em tweets em: quora.com/...
NQD

Respostas:

7

Essa é uma resposta tardia, mas pode ser útil para outras pessoas que pesquisam pesquisas e ferramentas relacionadas a esse problema:

  1. Weiwei Guo, da Columbia, implementou código para modelagem de tópicos em texto breve. Ele descreveu a implementação no artigo "Modelando Sentenças no Espaço Latente" ( http://aclweb.org/anthology-new/P/P12/P12-1091v2.pdf ) e o código está disponível aqui: http: // www .cs.columbia.edu / ~ weiwei / code.html

  2. Embora essa não seja a modelagem de tópicos, se você tiver uma tarefa de classificação envolvendo pequenos pedaços de texto, poderá usar o LibShortText. Na descrição do site

"O LibShortText é uma ferramenta de código aberto para classificação e análise de textos curtos. Ele pode lidar com a classificação de, por exemplo, títulos, perguntas, frases e mensagens curtas ..."

http://www.csie.ntu.edu.tw/~cjlin/libshorttext/

DPS
fonte
6

Embora eu não esteja muito familiarizado com o trabalho dele, sei que Jacob Eisenstein fez trabalhos em análise de texto e modelos gráficos em dados do twitter. Em particular, este artigo descreve uma aplicação da modelagem de tópicos em dados do twitter e microblogs.

Edit: na verdade, depois de ler um pouco mais o artigo, eles declaram:

No entanto, a mensagem média no Twitter é de apenas dezesseis tokens de palavras, o que é muito escasso para a modelagem de tópicos tradicional; em vez disso, reunimos todas as mensagens de um determinado usuário em um único documento.

Portanto, talvez esse artigo possa não ser de grande ajuda, mas talvez outras publicações da Eisenstein possam levá-lo na direção certa.

Junier
fonte
6

Um artigo recente chamado " um modelo de tópico biterm para texto breve " (WWW13) fez alguns progressos nesse tópico, e aqui está seu código

Xiaohui Yan
fonte
2
Confirmo que o BiTerm LDA funcionou muito bem para modelagem de tópicos de enunciados de texto curto (3-8 palavras) e classificação subsequente.
Vladislavs Dovgalecs