Preciso fazer o download de todos os ebooks Gutenberg, em formato de texto sem formatação (não html) e apenas no idioma inglês.
Alguém tem sugestões de como baixá-los todos do servidor Gutenberg?
Eu preciso deles para fazer uma pesquisa linguística.
fonte
--level=0
. Mas acho que é melhor você abortar e reiniciar: tente--level 9999 --no-clobber
, o que ignorará os arquivos que você já possui (supondo que você ainda esteja na mesma pasta do disco).--input-file
no manual .-c
opção, mas ainda assim. Deioffset=xxx
na URL para ser espelhado, mas ainda está baixando da primeira página.Você pode fazer o download de toda a coleção de livros em inglês da Gutenberg e de outros idiomas em um único arquivo ZIM, que é altamente compactado e pode ser aberto com o Kiwix tanto na área de trabalho quanto no Android. Os livros em inglês são de 40 GB.
fonte
Enquanto a resposta selecionada estiver correta, ela poderá causar dois problemas:
wget
comando falhará nas verificações recursivas ao baixar os arquivos de um espelho externo.A solução abaixo corrige estes problemas:
Você pode alterar as seqüências de referência e agente do usuário para fornecer um pouco de aleatoriedade.
fonte
ftp://mirrors.pglaf.org/mirrors/gutenberg-iso tem algumas boas opções.
ftp://mirrors.pglaf.org/mirrors/gutenberg-iso/pgdvd042010.iso é um arquivo de 8 GB que deve ser suficiente para suas necessidades.
Há mais informações aqui:
https://www.gutenberg.org/wiki/Gutenberg:The_CD_and_DVD_Project#Downloading_Via_FTP , fornece todas as opções de download do arquivo, incluindo FTP e BitTorrent.
fonte
Outra opção é a ótima ferramenta em http://pgiso.pglaf.org/ .
fonte
Por que não usar todas as suas habilidades e conhecimentos de programação complicados e mostrados acima para criar um botão simples que vincula todas essas ações e diz "Baixar todos os livros atuais" - com uma guia de opção de idioma quando você clica nele.
Tenho certeza de que a maioria dos usuários que acessam o site é colecionadora de livros eletrônicos e o download manual de certos livros sobre tópicos que os interessam é bom para 1 ou 2 livros. Mas fazer uma coleção maior manualmente é uma chatice. No entanto, se eles precisam para pesquisa ou simplesmente desejam possuir uma enorme biblioteca digital de livros em seu próprio PC. A maioria das pessoas é desativada e se dispersa para fora do site quando percebe que precisa ser um Assistente de Computador para fazer isso. ainda mais visitantes no site. Assim, todo mundo está feliz.
fonte