Eu quero usar o Wget para salvar páginas da Web únicas (não recursivamente, nem sites inteiros) para referência. Muito parecido com a "Página da Web do Firefox, completa".
Meu primeiro problema é: não consigo fazer com que o Wget salve as imagens de plano de fundo especificadas no CSS. Mesmo que ele salvasse os arquivos de imagem de plano de fundo, acho que --convert-links converteria os URLs da imagem de plano de fundo no arquivo CSS para apontar para as imagens de plano de fundo salvas localmente. O Firefox tem o mesmo problema.
Meu segundo problema é: se houver imagens na página que eu queira salvar que estejam hospedadas em outro servidor (como anúncios), elas não serão incluídas. --span-hosts não parece resolver esse problema com a linha abaixo.
Estou a usar:
wget --no-parent --timestamping --convert-links --page-requisites --no-directories --no-host-directories -erobots=off http://domain.tld/webpage.html
Respostas:
Na página do manual Wget :
Também no caso de
robots.txt
não permitir você adicionar-e robots=off
fonte
wget --adjust-extension --span-hosts --convert-links --backup-converted --page-requisites [url]
wget --recursive --no-clobber --page-requisites --html-extension --convert-links --restrict-file-names=windows
[url]O
wget
comando oferece a opção--mirror
, que faz o mesmo que:Você também pode participar
-x
para criar uma hierarquia de diretórios inteira para o site, incluindo o nome do host.Talvez você não tenha conseguido encontrar isso se não estiver usando a versão mais recente
wget
.fonte
Parece que o
wget
Firefox não está analisando o CSS para obter links para incluir esses arquivos no download. Você pode contornar essas limitações, criando o que puder e criando scripts para a extração de links de qualquer CSS ou Javascript nos arquivos baixados para gerar uma lista dos arquivos que você perdeu. Em seguida, uma segunda execuçãowget
dessa lista de links poderia capturar o que estava faltando (use o-i
sinalizador para especificar os URLs de uma lista de arquivos).Se você gosta do Perl, existe um módulo CSS :: Parser no CPAN que pode lhe proporcionar um meio fácil de extrair links dessa maneira.
Observe que
wget
está analisando apenas determinadas marcações html (href
/src
) e css uris (url()
) para determinar quais requisitos de página obter. Você pode tentar usar complementos do Firefox, como DOM Inspector ou Firebug, para descobrir se as imagens de terceiros que você não está obtendo estão sendo adicionadas por Javascript - nesse caso, será necessário recorrer a um script ou plugin do Firefox para obtê-las. também.fonte
Criei a Webtography para um objetivo semelhante: https://webjay.github.io/webtography/
Ele usa o Wget e envia o site para um repositório na sua conta do GitHub.
Eu uso esses argumentos:
https://github.com/webjay/webtography/blob/master/lib/wget.js#L15-L26
fonte