Estou usando o Wget e me deparei com um problema. Eu tenho um site, que possui várias pastas e subpastas no site. Preciso fazer o download de todo o conteúdo de cada pasta e subpasta. Eu tentei vários métodos usando o Wget e, quando verifico a conclusão, tudo o que posso ver nas pastas é um arquivo "índice". Posso clicar no arquivo de índice e ele me levará aos arquivos, mas preciso dos arquivos reais.
alguém tem um comando para o Wget que eu tenha esquecido, ou existe outro programa que eu poderia usar para obter todas essas informações?
exemplo de site:
www.mysite.com/Pictures/ dentro do Pictures Pictures, existem várias pastas .....
www.mysite.com/Pictures/Accounting/
www.mysite.com/Pictures/Managers/North America / California / JoeUser.jpg
Eu preciso de todos os arquivos, pastas, etc .....
wget
, especificamente para usá-la recursivamente ?Respostas:
Quero assumir que você não tentou isso:
ou para recuperar o conteúdo, sem baixar os arquivos "index.html":
Referência: Usando o wget para buscar recursivamente um diretório com arquivos arbitrários nele
fonte
eu uso
wget -rkpN -e robots=off http://www.example.com/
-r
significa recursivamente-k
significa converter links. Portanto, os links da página serão localhost em vez de example.com/bla-p
significa obter todos os recursos da página da web, para obter imagens e arquivos javascript para que o site funcione corretamente.-N
é recuperar registros de data e hora para que, se os arquivos locais forem mais recentes que os arquivos no site remoto, pule-os.-e
é uma opção de sinalizador que precisa estar lá para que orobots=off
trabalho.robots=off
significa ignorar arquivo de robôs.Eu também tinha
-c
nesse comando, portanto, se a conexão caísse, continuaria de onde parou quando eu reexecutar o comando. Eu pensei-N
que iria bem com-c
fonte
-e
executará o comando como se fosse parte do .wgetrc. Adicionei-o lá,robots=off
pois não parecia funcionar sem ele.wget -m -A * -pk -e robots = off www.mysite.com/ isto fará o download de todos os tipos de arquivos localmente e os apontará a partir do arquivo html
e ignorará o arquivo dos robôs
fonte