Inspirado por essa pergunta , estou me perguntando se algum trabalho foi feito sobre modelos de tópicos para grandes coleções de textos extremamente curtos. Minha intuição é que o Twitter seja uma inspiração natural para esses modelos. No entanto, a partir de algumas experiências limitadas, parece que os modelos de tópicos padrão (LDA, etc.) apresentam um desempenho muito ruim nesse tipo de dados.
Alguém aí conhece algum trabalho que tenha sido feito nessa área? Este artigo fala sobre a aplicação do LDA no Twitter, mas estou realmente interessado em saber se existem outros algoritmos com melhor desempenho no contexto de documentos curtos.
references
text-mining
topic-models
natural-language
Martin O'Leary
fonte
fonte
Respostas:
Essa é uma resposta tardia, mas pode ser útil para outras pessoas que pesquisam pesquisas e ferramentas relacionadas a esse problema:
Weiwei Guo, da Columbia, implementou código para modelagem de tópicos em texto breve. Ele descreveu a implementação no artigo "Modelando Sentenças no Espaço Latente" ( http://aclweb.org/anthology-new/P/P12/P12-1091v2.pdf ) e o código está disponível aqui: http: // www .cs.columbia.edu / ~ weiwei / code.html
Embora essa não seja a modelagem de tópicos, se você tiver uma tarefa de classificação envolvendo pequenos pedaços de texto, poderá usar o LibShortText. Na descrição do site
"O LibShortText é uma ferramenta de código aberto para classificação e análise de textos curtos. Ele pode lidar com a classificação de, por exemplo, títulos, perguntas, frases e mensagens curtas ..."
http://www.csie.ntu.edu.tw/~cjlin/libshorttext/
fonte
Embora eu não esteja muito familiarizado com o trabalho dele, sei que Jacob Eisenstein fez trabalhos em análise de texto e modelos gráficos em dados do twitter. Em particular, este artigo descreve uma aplicação da modelagem de tópicos em dados do twitter e microblogs.
Edit: na verdade, depois de ler um pouco mais o artigo, eles declaram:
Portanto, talvez esse artigo possa não ser de grande ajuda, mas talvez outras publicações da Eisenstein possam levá-lo na direção certa.
fonte
Um artigo recente chamado " um modelo de tópico biterm para texto breve " (WWW13) fez alguns progressos nesse tópico, e aqui está seu código
fonte