Onde encontrar um corpus de texto grande? [fechadas]
16
Estou procurando um corpus de texto grande (> 1000) para fazer o download. De preferência com notícias do mundo ou algum tipo de reportagem . Eu encontrei apenas um com patentes. Alguma sugestão?
Esta questão parece estar fora de tópico, porque se trata de encontrar um conjunto de dados, em vez de fazer análises estatísticas.
Peter Flom - Reinstate Monica
2
Bem, isso é estranho, porque essas perguntas e respostas são realmente úteis.
Sideshow Bob
@guaka, por favor, não bote essas postagens antigas para edições menores, principalmente uma que está fechada. É verdade que a nossa preferência de estilo não é ter "agradecimentos", mas por algo tão pequeno, nós simplesmente deixamos.
Não é o corpus mais interessante (ou diverso). A licença também é restritiva em relação ao Wikileaks (documentos de domínio público dos EUA) ou aos wikinews.
Ariddell 17/05
@ariddell Eu concordo, mas é comumente usado em exemplos introdutórios de PNL, e é grande o suficiente para ser útil no aprendizado, mas pequeno o suficiente para ser analisado em um bom laptop.
Respostas:
Os textos do Wikileaks não lhe agradam?
fonte
E as wikinews ? Aqui está o despejo de banco de dados mais recente que eu poderia encontrar: http://dumps.wikimedia.org/enwikinews/20111120/
Você provavelmente deseja a versão "Todas as páginas, apenas as versões atuais".
fonte
O corpus de texto reuters é um clássico no campo e pode ser encontrado aqui
fonte
http://endb-consolidated.aihit.com/datasets.htm contém 10.000 empresas com descrições textuais
fonte
Se a recência não for um problema, você pode tentar
http://www.infochimps.com/datasets/20-newsgroups-dataset-de-duped-version
e há muitos outros conjuntos de dados semelhantes no infochimp, dependendo do seu orçamento.
Atenciosamente, Andy.
fonte
Se você quiser n-gramas pré-computados, tente o arquivo do Google Livros:
http://books.google.com/ngrams/datasets
fonte