Estou tentando reunir estatísticas sobre seqüências de caracteres ou palavras usadas no idioma inglês para uso em um projeto de software.
Onde posso obter uma grande quantidade (vários GB seria bom) de texto sem formatação em inglês, cobrindo um conjunto diversificado de tópicos?
research
statistics
JSideris
fonte
fonte
Respostas:
Você pode usar os despejos de dados da Wikipedia . O despejo de dados XML da Wikipedia em inglês que inclui apenas as revisões atuais é de aproximadamente 31 GB, então eu diria que seria um bom começo para sua pesquisa. O despejo de dados é muito grande, portanto, considere extrair os textos do XML com um analisador SAX. O WikiXMLJ é uma API Java útil ajustada para a Wikipedia.
E, é claro, sempre há os despejos de dados do Stack Exchange . O mais recente inclui todos os sites públicos não-beta do Stack Exchange e sites meta correspondentes até setembro de 2011. Mas, naturalmente, as postagens do Stack Exchange estão concentradas no escopo de cada site, portanto, provavelmente não serão tão generalizadas quanto você deseja. As meta-postagens são um pouco mais gerais, portanto, você pode considerá-las além da Wikipedia.
Eu não acho que você encontrará algo melhor, especialmente em texto simples. Vários conjuntos de dados abertos estão disponíveis no Data Hub , mas acho que o despejo de dados da Wikipedia em inglês está muito próximo do que você está procurando.
fonte
O Google possui uma coleção de conjuntos de dados que eles usam para determinar as probabilidades de n gramas. Examinar seus conjuntos de dados bigram (2 gramas) deve fornecer uma boa imagem. Existem muitos outros corpi por aí para os quais essas análises já foram feitas.
fonte
O Projeto Gutenberg tem um grande corpus de textos em inglês, já em forma de texto.
fonte
Para as estatísticas, você provavelmente está olhando para "Bigram Frequency no idioma inglês". Dê uma olhada em: Wiki-Bigram Stats
quanto à localização de um texto grande, observe que a frequência seria influenciada pelo tipo de texto. Por exemplo, se você analisar endereços, obterá resultados diferentes da análise de matérias de jornais. Se você quiser apenas testar, poderá usar o arquivo PDF de qualquer livro (melhor não ser um livro de matemática, programação ou medicina) e convertê-lo em texto e executar seus testes. Você também pode converter páginas da web de jornais em texto e trabalhar com elas.
fonte