Onde encontrar um corpus de texto grande? [fechadas]

16

Estou procurando um corpus de texto grande (> 1000) para fazer o download. De preferência com notícias do mundo ou algum tipo de reportagem . Eu encontrei apenas um com patentes. Alguma sugestão?

Dimitar Vouldjeff
fonte
Este tópico parece estar fora do tópico. Consulte meta.stats.stackexchange.com/questions/1032/… .
whuber
Esta questão parece estar fora de tópico, porque se trata de encontrar um conjunto de dados, em vez de fazer análises estatísticas.
Peter Flom - Reinstate Monica
2
Bem, isso é estranho, porque essas perguntas e respostas são realmente úteis.
Sideshow Bob
@guaka, por favor, não bote essas postagens antigas para edições menores, principalmente uma que está fechada. É verdade que a nossa preferência de estilo não é ter "agradecimentos", mas por algo tão pequeno, nós simplesmente deixamos.
gung - Restabelece Monica

Respostas:

9

Os textos do Wikileaks não lhe agradam?

adamo
fonte
Mas como eu poderia baixá-los em .txt #
Dimitar Vouldjeff
6

E as wikinews ? Aqui está o despejo de banco de dados mais recente que eu poderia encontrar: http://dumps.wikimedia.org/enwikinews/20111120/

Você provavelmente deseja a versão "Todas as páginas, apenas as versões atuais".

mogron
fonte
Isso não funciona mais.
vy32
link de despejo não funciona mais. conjunto de dados por região é pequeno e desatualizado
HappyCoding 24/16/16
6

O corpus de texto reuters é um clássico no campo e pode ser encontrado aqui

richiemorrisroe
fonte
Não é o corpus mais interessante (ou diverso). A licença também é restritiva em relação ao Wikileaks (documentos de domínio público dos EUA) ou aos wikinews.
Ariddell 17/05
@ariddell Eu concordo, mas é comumente usado em exemplos introdutórios de PNL, e é grande o suficiente para ser útil no aprendizado, mas pequeno o suficiente para ser analisado em um bom laptop.
Richiemorrisroe #