Conjunto de dados para reconhecimento de entidade nomeada em texto informal

18

Atualmente, estou procurando conjuntos de dados rotulados para treinar um modelo para extrair entidades nomeadas de texto informal (algo semelhante a tweets). Como muitas vezes faltam letras maiúsculas e minúsculas nos documentos do meu conjunto de dados, estou procurando dados fora do domínio um pouco mais "informais" do que os artigos de notícias e os periódicos que muitos dos sistemas de reconhecimento de entidades de última geração de hoje em dia são treinado em.

Alguma recomendação? Até agora, só consegui localizar 50k tokens do twitter publicados aqui .

Madison May
fonte
2
Recomende perguntar em opendata.stackexchange.com
Air
@Madison May. Você encontrou um conjunto de dados? Estou procurando por algo parecido. Obrigado.
31414 ahoffer
Eu tive que me contentar com o twitter ner corpus da U. Washington (link para o post original).
31414 Madison
tem algum corpus inglês anotado relacionado?
Achyuta nanda sahoo

Respostas:

6

Pelo que entendi, estas são as propriedades que você procura em um conjunto de dados de exemplo:

  1. Dados de texto
  2. Deve ser informal, ou seja, ter erros de digitação, gírias e basicamente algo não editado profissionalmente
  3. Algo diferente do Twitter (não culpo você, o Twitter é uma fonte de dados de exemplo útil e muito usada em mineração de texto)

Aqui estão algumas recomendações:

  1. E-mails do corpus SpamAssassin - observe que os conjuntos de dados "presunto" (não spam) e spam estão disponíveis
  2. conjunto de dados de microblogPCU da UCI, que é extraído dos microblogs dos usuários do Sina Weibo - observe que os dados de texto bruto são uma mistura de chinês e inglês (você pode executar a tradução automática do chinês, filtrar apenas o inglês ou usá-lo como é)
  3. O Amazon Commerce revisa o conjunto de dados da UCI
  4. No conjunto de dados bag-o-words , tente usar os emails da Enron
  5. O conjunto de dados de vinte grupos de notícias
  6. Esta bela coleção de spam por SMS
  7. Você sempre pode raspar (extrair) seus próprios dados de texto da Internet; Eu não tenho certeza que a linguagem ou pacote estatístico que você está usando, mas pacotes baseados em XPath estão disponíveis em R ( rvest, scrapeR, etc) e Python para alcançar este
Hack-R
fonte
1
No entanto, algum desses conjuntos de dados é anotado com entidades nomeadas? Acredito que é isso que o OP estava procurando.
Sr. Phil