Faça download recursivamente de arquivos de um site usando o wget

1

Eu quero baixar um conjunto de arquivos de um site. Os documentos HTML estão vinculados

<a href="https://website.com/path/to/folder/jjxx.70" data-linktype="relative-path">bla</a>

Após o download do arquivo principal, o caminho / para / pasta é removido conforme o esperado. A linha restante é:

<a href="jjxx.70" data-linktype="relative-path">bla</a>

Mas o wget não faz o download dos arquivos referenciados, embora eu tenha passado espelho parâmetro. Tudo que eu obtenho é:

c:\>wget-1.12 -m -p -E https://website.com/path/to/folder/jjroot
... progress information ...
2018-09-15 18:52:33 (708 KB/s) - `website.com/path/to/folder/jjroot.html' saved [25784/25784]

FINISHED --2018-09-15 18:52:33--
Downloaded: 1 files, 25K in 0.04s (708 KB/s)
  • Por que o wget faz o download de apenas "1 arquivos"?
  • Como posso dizer ao wget para baixar de forma recursiva?

Editar : Desde que me perguntaram: A versão do wget é 1.12. Eu também usei o wget 1.19.4 com o mesmo resultado.

harper
fonte
1
Você leu o manual do wget? Tem uma seção inteira sobre downloads recursivos.
RalfFriedl
Primeiro, compartilhe a versão do Wget que você está usando. wget -V. Eu vejo que você está usando no Windows. Muitas vezes as pessoas acabam usando versões muito antigas do Wget, onde metade das soluções não funciona. EDIT: Parece que você está usando o Wget 1.12, que é de aproximadamente 6 anos de idade. A última versão é 1.19.5, lançada este ano.
darnir
@darnir Bem, o wget-1.12 reporta como versão "1.12.1-devel". Isso não é uma surpresa para mim.
harper

Respostas:

2

O comando é:

wget -r -np -l 1 -A zip http://example.com/download/

Significado das opções:

-r,  --recursive          specify recursive download.
-np, --no-parent          don't ascend to the parent directory.
-l,  --level=NUMBER       maximum recursion depth (inf or 0 for infinite).
-A,  --accept=LIST        comma-separated list of accepted extensions

Você pode personalizar as extensões necessárias usando o parâmetro -A

referência

https://stackoverflow.com/questions/13533217/how-to-download-all-links-to-zip-files-on-a-given-web-page-using-wget-curl
Ahmed Abdelazim
fonte
Infelizmente isso não muda nada. Ainda basta baixar um arquivo.
harper