Dados de sentimento para Emoji

12

Para experimentar, gostaríamos de usar o Emoji incorporado em muitos Tweets como dados básicos de treinamento / verdade para uma análise quantitativa simples de senações. Os tweets geralmente não são estruturados para que a PNL funcione bem.

De qualquer forma, existem 722 Emoji no Unicode 6.0 e provavelmente outros 250 serão adicionados no Unicode 7.0.

Existe um banco de dados (como, por exemplo, o SentiWordNet) que contém anotações de sentimentos para eles?

(Observe que o SentiWordNet também permite significados ambíguos . Considere, por exemplo , engraçado , que não é apenas positivo: "isso tem um gosto engraçado" provavelmente não é positivo ... o mesmo vale ;-)por exemplo. Mas não acho que isso seja mais difícil. para Emoji do que para palavras comuns ...)

Além disso, se você tiver experiência em usá-los para análise de sentimentos, ficaria interessado em ouvir.

Erich Schubert
fonte
Não acredite que algo assim exista atualmente, mas adoraria se você juntar algo para isso!
Indico
Erich Schubert, estou procurando exatamente a mesma coisa! Você teve alguma chance de encontrar um recurso útil para isso?
Saeed mehrabi

Respostas:

4

Um total de 972 emojis não é tão grande assim para não poder rotulá-los manualmente, mas duvido que eles funcionem como uma boa verdade. Fontes como o Twitter estão cheias de ironia, sarcasmo e outras situações complicadas, onde símbolos emocionais (como emoji ou emoticon) significam algo diferente da interpretação normal. Por exemplo, alguém pode escrever "xxx enganou seus clientes e agora eles são enganados! Ha ha ha!: D". Esse é definitivamente um comentário negativo, mas o autor está feliz em ver a empresa xxx com problemas e, portanto, adiciona emoticons positivos. Esses casos não são tão frequentes, mas definitivamente não são adequados para a verdade básica.

Uma abordagem muito mais comum é usar o emoticon como uma semente para coletar o conjunto de dados real . Por exemplo, neste artigo, os autores usam tags de emoticons e hash emocional para obter o léxico de palavras úteis para classificação adicional.

amiga
fonte
1
Na verdade eu discordo. Como o autor gosta que eles estejam com problemas, é um sentimento positivo lá. É um comentário negativo sobre a empresa, mas, no entanto, um sentimento positivo do autor. Nesse cenário mais simples (não estou dizendo que esse é o objetivo completo), prever quais emojis um usuário adicionaria à postagem parece uma tarefa razoável para mim. Na verdade, você pode construir muitos casos em que o emoji serão essenciais .. Considere "Got f_cked :-)" em oposição a "Got f_cked :-(."
Erich Schubert
Caso você tente estimar a emoção da pessoa em oposição à atitude da pessoa em relação a um assunto, então sim, este exemplo não funciona. Mas existem muitos outros. O sarcasmo é um caso comum. Considere a frase "oh sim, você é um verdadeiro 'mestre';)". O ser humano pode pegar um contexto negativo, mas o emoticon positivo apontará para emoções positivas. Mas eu realmente não entendi: você deseja extrair informações subjetivas de tweets ou apenas prever possíveis emojis? Mesmo que pareçam semelhantes, a segunda tarefa não é realmente sobre análise de sentimentos. Não diretamente, pelo menos.
ffriend
O smiley "wink" geralmente não é considerado "positivo", mas "irônico" ... e é por isso que um bom dicionário como o SentiWordNet faz sentido. Se você olha engraçado no SentiWordNet, também tem mais de um significado! sentiwordnet.isti.cnr.it/search.php?q=funny (Portanto, não é trivial anotá-los manualmente, porque não é tão simples quanto positivo / negativo; mas você deve fazer a validação usual de acordo entre avaliadores etc.)
Erich Schubert
Agora eu vejo a sua ideia. Mas eu realmente não acho que funcione, apenas porque (a maioria) dos emojis não me parecem bons preditores e você explicitamente não deseja usar outros recursos. Enfim, esta é apenas uma opinião baseada na minha experiência, apenas dados podem dar respostas reais. Boa sorte!
ffriend
Quem disse que eu não quero usar outros recursos? Mas para estes eu vi bancos de dados ...
Erich Schubert
0

Achei este repositório do Github útil (um bom começo): https://github.com/wooorm/emoji-emotion Lista de emoticons classificados para valência com um número inteiro entre menos cinco (negativo) e mais cinco (positivo).

Consulte a lista de emojis unicode suportados: https://github.com/wooorm/emoji-emotion/blob/master/Support.md

Observe que alguns emojis recebem polaridades indiscutivelmente confusas, como stuck_out_tongue_closed_eyes (0), devido a serem usadas para emoções positivas e negativas.

Tal Weiss
fonte