Estou procurando compilar um corpus de sentimentos para artigos de notícias em vários idiomas (~ 100 mil por idioma. Para um experimento de aprendizado de máquina) em que cada artigo é rotulado como positivo, neutro ou negativo. Pesquisei alto e baixo, mas não consegui encontrar nada parecido com este disponível. Eu já tenho os artigos de notícias em cada idioma.
Minha pergunta à comunidade é: como você conseguiria isso com a maior precisão possível?
Eu estava olhando pela primeira vez para o Mechanical Turk , onde você pode contratar pessoas para rotular cada artigo manualmente para você. E este pode ser o melhor caminho a seguir, mas caro .
Em seguida, pensei em todas essas bibliotecas populares existentes (alguns dos Mechanical Turk quais já usado) que faça análise de sentimento ( AFINN , Bing Liu , MPQA , VADER , TextBlob , etc.)
- Ideia de sentimento
Minha idéia atual é que eu publique cada artigo de notícias em algumas dessas bibliotecas (por exemplo, AFINN, TextBlob e VADER) e nos artigos que mostram positivo, negativo e neutro por unanimidade, embora todas as três libs sejam aceitas no corpus. Parece um processo de verificação bastante forte e razoável?
- Idéia de idioma
A próxima edição refere-se à própria linguagem. O pipeline de 3 libs acima pode ser executado em inglês sem problemas. No entanto, essas bibliotecas não suportam a uniformidade de muitos outros idiomas (espanhol, alemão, chinês, árabe, francês, português etc.). Eu estava pensando em fazer o que o VADER sugere e pegar as notícias em idiomas que não o inglês e enviá-las pela Tradução do Google API para colocá-los em inglês e enviá-los pelo pipeline de 3 lib existente acima. Sei que haverá uma perda na semântica para muitos artigos. No entanto, minha esperança é que artigos suficientes sejam traduzidos o suficiente para que alguns passem pelo pipeline de 3 lib.
Estou ciente de que a tradução e o envio de artigos de notícias através desse canal de sentimentos triplos às cegas pode levar um corpus de 100 mil e produzir 10 mil resultados. Eu estou bem com isso. A precisão e o preço são a minha preocupação. Eu posso facilmente adquirir mais dados.
O que você faria para ser uma maneira mais precisa de obter um corpus de sentimentos de artigos de notícias? Existe uma prática recomendada existente para montar um corpus como este?
Respostas:
Várias perguntas e pensamentos vêm à mente.
Não descarte o comentário de oW_. Você deve considerar seriamente dividir os artigos em parágrafos. Você sempre pode agregar as pontuações do parágrafo ao artigo, mas é difícil obter uma pontuação representativa à medida que o texto fica mais longo.
HTH
fonte