Estou tentando espelhar um blog, por exemplo www.example.com
, com wget
.
Eu uso o wget com as seguintes opções (variáveis de shell são substituídas corretamente):
wget -m -p -H -k -E -np \
-w 1 \
--random-wait \
--restrict-file-names=windows \
-P $folder \
-Q${quota}m \
-t 3 \
--referer=$url \
-U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4' \
-e robots=off \
-D $domains
-- $url
O blog contém imagens que residem em outros domínios.
Embora eu tenha especificado a -p
opção (baixar ativos da página vinculada), essas imagens não serão baixadas, a menos que eu especifique explicitamente cada domínio na -D
opção.
Se eu omitir a -D
opção, o wget seguirá todos os links externos www.example.com
e fará o download de toda a Internet.
É possível wget
simplesmente seguir todos os links abaixo www.example.com
e fazer o download dos recursos necessários de cada página, estejam eles no mesmo domínio ou não, sem que eu precise especificar cada domínio explicitamente?
wget -N -E -H -k -K -p
primeiro e criei um script para buscar imagens vinculadas ausentes.-D $domains
bem como-H
. Sem-H
ele, ele deve permanecer no seu domínio, mas ainda recuperar os ativos diretos da página, mesmo quando eles estão em um domínio diferente.Respostas:
Não, a única maneira é especificar os domínios que você deseja seguir usando -D ou --domains = [lista de domínios] (na forma de lista separada por vírgula)
fonte