Gostaria de rastrear links em www.website.com/XYZ e fazer o download apenas dos links em www.website.com/ABC.
Estou usando o seguinte comando wget para obter os arquivos que desejo:
wget -I ABC -r -e robots=off --wait 0.25 http://www.website.com/XYZ
Isso funciona perfeitamente quando eu uso o wget 1.13.4. Mas o problema é que eu tenho que usar esse comando em um servidor que tenha o wget 1.11 e, quando eu uso o mesmo comando, ele acaba baixando domínios adicionais, como:
www.website.de
www.website.it
...
Como posso evitar esse problema? Eu tentei usar
--exclude domains=www.website.de,www.website.it
no entanto, continuou baixando esses domínios.
Observe também que não posso usá-lo, --no-parent
pois os arquivos desejados estão no nível superior (quero arquivos em website.com/ABC pesquisando links em website.com/XYZ).
Alguma dica?
command-line
wget
user2779485
fonte
fonte
wget
não deve cruzar hosts por padrão e você precisa da opção-H
/--span-hosts
para cruzar hosts ao executar um wget recursivo. "www.website.com" é um host completamente diferente de "www.website.de".-H
sempre foi solicitado a ser executado fora do host original. Será que-D www.website.com
ajuda?Respostas:
Isto está errado:
O caminho certo é:
Na página do manual wget:
fonte
Você pode tentar
--max-redirect 0
ou usar--domains example.com
o oposto de--exclude-domains example.com
.Vejo:
fonte