Baixe TODAS as pastas, subpastas e arquivos usando o Wget

20

Estou usando o Wget e me deparei com um problema. Eu tenho um site, que possui várias pastas e subpastas no site. Preciso fazer o download de todo o conteúdo de cada pasta e subpasta. Eu tentei vários métodos usando o Wget e, quando verifico a conclusão, tudo o que posso ver nas pastas é um arquivo "índice". Posso clicar no arquivo de índice e ele me levará aos arquivos, mas preciso dos arquivos reais.

alguém tem um comando para o Wget que eu tenha esquecido, ou existe outro programa que eu poderia usar para obter todas essas informações?

exemplo de site:

www.mysite.com/Pictures/ dentro do Pictures Pictures, existem várias pastas .....

www.mysite.com/Pictures/Accounting/

www.mysite.com/Pictures/Managers/North America / California / JoeUser.jpg

Eu preciso de todos os arquivos, pastas, etc .....

Henry horrível
fonte
1
Você leu a documentação wget, especificamente para usá-la recursivamente ?
Moisés
Há também um artigo na documentação aqui que parece relevante.
Moisés

Respostas:

37

Quero assumir que você não tentou isso:

wget -r --no-parent http://www.mysite.com/Pictures/

ou para recuperar o conteúdo, sem baixar os arquivos "index.html":

wget -r --no-parent --reject "index.html *" http://www.meusite.com/Pictures/

Referência: Usando o wget para buscar recursivamente um diretório com arquivos arbitrários nele

Felix Imafidon
fonte
1
Obrigado, executei esse comando várias vezes, mas não deixei o comando terminar até o fim. Eu fui rastreado e deixei o comando realmente terminar, e ele copiou TODAS as pastas primeiro, depois voltou e copiou TODOS os arquivos para a pasta.
Henry horrível
só vai te mostrar, se eu tivesse paciência, eu teria feito isso há 2 semanas atrás .... LOL. :) obrigado novamente.
Henry horrível
@Horrid Henry, Parabéns!
Felix Imafidon
Eu uso o comando semelhante, mas apenas obtendo um arquivo index.html!
shenkwen
20

eu uso wget -rkpN -e robots=off http://www.example.com/

-r significa recursivamente

-ksignifica converter links. Portanto, os links da página serão localhost em vez de example.com/bla

-p significa obter todos os recursos da página da web, para obter imagens e arquivos javascript para que o site funcione corretamente.

-N é recuperar registros de data e hora para que, se os arquivos locais forem mais recentes que os arquivos no site remoto, pule-os.

-eé uma opção de sinalizador que precisa estar lá para que o robots=offtrabalho.

robots=off significa ignorar arquivo de robôs.

Eu também tinha -cnesse comando, portanto, se a conexão caísse, continuaria de onde parou quando eu reexecutar o comando. Eu pensei -Nque iria bem com-c

Tim Jonas
fonte
Você poderia adicionar algumas frases à sua resposta para explicar o que essas configurações de parâmetro fazem?
fixer1234
Desculpe. com certeza vou adicioná-los agora
Tim Jonas
Eu atualizei a minha resposta
Tim Jonas
Obrigado. Portanto, -c deve fazer parte do seu exemplo de comando ou ser adicionado opcionalmente após um download incompleto? Além disso, o -e é para que o comando tenha precedência sobre qualquer um que esteja em .wgetrc? E isso é um erro de digitação para -r (recursivo vs. recluso)?
fixer1234
Sim, está correto. Sim -eexecutará o comando como se fosse parte do .wgetrc. Adicionei-o lá, robots=offpois não parecia funcionar sem ele.
Tim Jonas
1

wget -m -A * -pk -e robots = off www.mysite.com/ isto fará o download de todos os tipos de arquivos localmente e os apontará a partir do arquivo html
e ignorará o arquivo dos robôs

Abdalla Mohamed Aly Ibrahim
fonte