Ignorar "outros" domínios ao fazer o download com o wget?

Gostaria de rastrear links em www.website.com/XYZ e fazer o download apenas dos links em www.website.com/ABC.

Estou usando o seguinte comando wget para obter os arquivos que desejo:

wget  -I ABC -r -e robots=off --wait 0.25  http://www.website.com/XYZ

Isso funciona perfeitamente quando eu uso o wget 1.13.4. Mas o problema é que eu tenho que usar esse comando em um servidor que tenha o wget 1.11 e, quando eu uso o mesmo comando, ele acaba baixando domínios adicionais, como:

www.website.de 
www.website.it 
...

Como posso evitar esse problema? Eu tentei usar

--exclude domains=www.website.de,www.website.it

no entanto, continuou baixando esses domínios.

Observe também que não posso usá-lo, --no-parentpois os arquivos desejados estão no nível superior (quero arquivos em website.com/ABC pesquisando links em website.com/XYZ).

Alguma dica?

command-line wget user2779485
fonte

Não use URLs "falsos" e não use o URL de um site que não tem nada a ver com o seu problema. Os domínios que você listou não são de forma alguma "subdomínios", são apenas domínios diferentes, provavelmente pertencentes à mesma empresa.

guntbert

Algo está errado aqui. wgetnão deve cruzar hosts por padrão e você precisa da opção -H/ --span-hostspara cruzar hosts ao executar um wget recursivo. "www.website.com" é um host completamente diferente de "www.website.de".

Jw013 10/10

@ Guntbert desculpe, eu pensei que dar o URL real seria um problema. é claro que o site que quero rastrear não é website.com. mas quando rastreio example.com, também vejo exemplo.it, exemplo.de no diretório principal (o mesmo nível de exemplo.com).

user2779485

@ jw013 como eu disse acima, quando eu apenas dou www.example.com/x, ele também rastreia www.example.de, www.example.it. Mas isso só acontece com o wget 1.11 e não com o 1,13. É por isso que estou muito confuso.

user2779485

Isso parece um bug: o wget 1.11 não deve se comportar de maneira diferente, -Hsempre foi solicitado a ser executado fora do host original. Será que -D www.website.comajuda?

Gilles 'SO- stop being evil'

Ignorar "outros" domínios ao fazer o download com o wget?

Respostas: