Gostaria de fazer o download de uma cópia local de uma página da web e obter todo o css, imagens, javascript etc.
Nas discussões anteriores (por exemplo, aqui e aqui , com mais de dois anos), geralmente são apresentadas duas sugestões: wget -p
e httrack . No entanto, essas sugestões falham. Eu gostaria muito de receber ajuda com o uso de qualquer uma dessas ferramentas para realizar a tarefa; alternativas também são adoráveis.
Opção 1: wget -p
wget -p
baixa com êxito todos os pré-requisitos da página da web (css, imagens, js). No entanto, quando carrego a cópia local em um navegador da Web, a página não pode carregar os pré-requisitos, porque os caminhos para esses pré-requisitos não foram modificados a partir da versão na Web.
Por exemplo:
- No html da página,
<link rel="stylesheet href="https://stackoverflow.com/stylesheets/foo.css" />
será necessário corrigi-lo para apontar para o novo caminho relativo defoo.css
- No arquivo css, da
background-image: url(/images/bar.png)
mesma forma precisará ser ajustado.
Existe uma maneira de modificar wget -p
para que os caminhos estejam corretos?
Opção 2: httrack
httrack
parece ser uma ótima ferramenta para espelhar sites inteiros, mas não está claro para mim como usá-lo para criar uma cópia local de uma única página. Há muita discussão nos fóruns do httrack sobre esse tópico (por exemplo, aqui ), mas ninguém parece ter uma solução à prova de balas.
Opção 3: outra ferramenta?
Algumas pessoas sugeriram ferramentas pagas, mas não acredito que não exista uma solução gratuita por aí.
fonte
wget -E -H -k -K -p http://example.com
- somente isso funcionou para mim. Crédito: superuser.com/a/136335/94039wget --random-wait -r -p -e robots=off -U mozilla http://www.example.com
Respostas:
O wget é capaz de fazer o que você está pedindo. Apenas tente o seguinte:
O
-p
vai te todos os elementos necessários para visualizar o site corretamente (css, imagens, etc). O-k
vai mudar todos os links (incluindo aqueles para CSS e imagens) para que você possa visualizar a página offline como apareceu online.Nos documentos do Wget:
fonte
index.html#link-to-element-on-same-page
pararam de funcionar.-U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4'
-H, --span-hosts