Atualmente, estou procurando conjuntos de dados rotulados para treinar um modelo para extrair entidades nomeadas de texto informal (algo semelhante a tweets). Como muitas vezes faltam letras maiúsculas e minúsculas nos documentos do meu conjunto de dados, estou procurando dados fora do domínio um pouco mais "informais" do que os artigos de notícias e os periódicos que muitos dos sistemas de reconhecimento de entidades de última geração de hoje em dia são treinado em.
Alguma recomendação? Até agora, só consegui localizar 50k tokens do twitter publicados aqui .
Respostas:
Pelo que entendi, estas são as propriedades que você procura em um conjunto de dados de exemplo:
Aqui estão algumas recomendações:
rvest
,scrapeR
, etc) e Python para alcançar estefonte
Verifique estes:
Repositório de domínios de teste para extração de informações: http://www.isi.edu/info-agents/RISE/repository.html
DBpedia: http://wiki.dbpedia.org/Downloads32 ( espelho )
Link Atualizado:
http://www.isi.edu/integration/RISE/
https://github.com/dbpedia/extraction-framework/wiki/The-DBpedia-Data-Set
fonte
Algumas das fontes que eu usei:
Eu acho que esses conjuntos de dados serão de grande ajuda para sua tarefa
fonte