Onde posso obter um conjunto diversificado de texto de exemplo? [fechadas]

14

Estou tentando reunir estatísticas sobre seqüências de caracteres ou palavras usadas no idioma inglês para uso em um projeto de software.

Onde posso obter uma grande quantidade (vários GB seria bom) de texto sem formatação em inglês, cobrindo um conjunto diversificado de tópicos?

JSideris
fonte
3
De alguma forma eu sinto que você vai desfrutar particularmente estas ilustrações
yannis
@Yannis Rizos Estes são impressionantes: D.
JSideris
@Yannis Rizos oh eles estão muito ...
sevenseacat
@YannisRizos Isso foi fechado há alguns anos atrás. Finalmente resolvi editar a pergunta para que ela seja um pouco mais específica e melhor para o formato de controle de qualidade. Posso fechar agora? (Você é a única pessoa neste segmento que ainda é moderadora).
JSideris 02/02

Respostas:

19

Você pode usar os despejos de dados da Wikipedia . O despejo de dados XML da Wikipedia em inglês que inclui apenas as revisões atuais é de aproximadamente 31 GB, então eu diria que seria um bom começo para sua pesquisa. O despejo de dados é muito grande, portanto, considere extrair os textos do XML com um analisador SAX. O WikiXMLJ é uma API Java útil ajustada para a Wikipedia.

E, é claro, sempre há os despejos de dados do Stack Exchange . O mais recente inclui todos os sites públicos não-beta do Stack Exchange e sites meta correspondentes até setembro de 2011. Mas, naturalmente, as postagens do Stack Exchange estão concentradas no escopo de cada site, portanto, provavelmente não serão tão generalizadas quanto você deseja. As meta-postagens são um pouco mais gerais, portanto, você pode considerá-las além da Wikipedia.

Eu não acho que você encontrará algo melhor, especialmente em texto simples. Vários conjuntos de dados abertos estão disponíveis no Data Hub , mas acho que o despejo de dados da Wikipedia em inglês está muito próximo do que você está procurando.

yannis
fonte
1
esses são alguns recursos interessantes.
hanzolo
Os Stack, embora extensos, cobrirão um campo muito estreito do discurso (por necessidade), para que não sejam generalizados.
jonsca
Oh meu Deus, esses arquivos são enormes! Assim que eu puder encontrar uma maneira de abri-los e filtrar toda a porcaria de xml, isso deve funcionar muito bem. Obrigado!
JSideris
1
@Bizorke Fico feliz que eu poderia ajudar. Quando terminar, atualize a pergunta com um link para sua pesquisa.
yannis
5

O Google possui uma coleção de conjuntos de dados que eles usam para determinar as probabilidades de n gramas. Examinar seus conjuntos de dados bigram (2 gramas) deve fornecer uma boa imagem. Existem muitos outros corpi por aí para os quais essas análises já foram feitas.

jonsca
fonte
3
Eu estava apenas escrevendo a mesma coisa.
jcmeloni
@jcmeloni Grandes mentes!
jonsca
5

O Projeto Gutenberg tem um grande corpus de textos em inglês, já em forma de texto.

O Project Gutenberg oferece mais de 42.000 ebooks gratuitos: escolha entre livros epub gratuitos, livros gratuitos, faça o download ou leia-os on-line.

Nós carregamos e-books de alta qualidade: todos os nossos e-books foram publicados anteriormente por editores de boa-fé. Nós digitalizamos e revisamos diligentemente com a ajuda de milhares de voluntários ...

Michael Kohne
fonte
1
Pensei no Projeto Gutenberg, mas não consegui encontrar um despejo de dados concentrado. E para que um livro seja incluído, seus direitos autorais devem expirar e, geralmente, isso significa que 50 a 70 anos se passaram desde a primeira publicação dos livros. Portanto, não acho que, como conjunto de dados, o Project Gutenberg seja representativo do idioma usado hoje.
yannis
1
Se você deseja algo "representativo do idioma usado hoje", tente os comentários do YouTube. Triste mas verdadeiro.
Jörg W Mittag
@ JörgWMittag - ai. O que realmente me incomoda é como você não está errado.
22630 Michael Kohne
@ Jörg W Mittag É possível, mas certas palavras específicas do youtube surgiam com muita frequência, como: YO OU UT TU UB BE, ou pior: FA AK KE AN ND GA AY
JSideris 01/02
1

Para as estatísticas, você provavelmente está olhando para "Bigram Frequency no idioma inglês". Dê uma olhada em: Wiki-Bigram Stats

quanto à localização de um texto grande, observe que a frequência seria influenciada pelo tipo de texto. Por exemplo, se você analisar endereços, obterá resultados diferentes da análise de matérias de jornais. Se você quiser apenas testar, poderá usar o arquivo PDF de qualquer livro (melhor não ser um livro de matemática, programação ou medicina) e convertê-lo em texto e executar seus testes. Você também pode converter páginas da web de jornais em texto e trabalhar com elas.

NoChance
fonte
2
Sim, eu percebo que os resultados serão tendenciosos. Preciso de um recurso que cubra o maior número possível de assuntos. Eu considerei baixar um monte de e-books, o principal problema é convertê-los todos em texto. Mas não faria mal procurar algumas estatísticas de bigram (eu não sabia que era assim que as combinações de duas letras eram chamadas).
JSideris 01/02/12
Obrigado pelo seu comentário. Você pode converter PDF em texto usando o Arquivo -> Salvar como texto no leitor de PDF ADOBE. Esse link também pode ser útil
NoChance
O @EmmadKareem OP está solicitando vários GBs de texto. Você está sugerindo seriamente que ele use o Adobe Reader para extrair texto de PDFs?
yannis
@YannisRizos, eu não percebi que vários GBs eram um requisito obrigatório. Se for esse o caso, existem ferramentas melhores que podem ser usadas para esse fim. Obrigado por apontar isso.
NoChance