Gostaria de salvar esta página da Web e todas as páginas às quais ele vincula. e esperamos ter o mesmo vínculo entre as páginas da web salvas.
Existem algumas maneiras, em vez de abrir e salvar cada página vinculada?
Gostaria de salvar esta página da Web e todas as páginas às quais ele vincula. e esperamos ter o mesmo vínculo entre as páginas da web salvas.
Existem algumas maneiras, em vez de abrir e salvar cada página vinculada?
Você pode fazer o que quiser com o utilitário de linha de comando wget . Se você fornecer a -r
opção, ele fará o download recursivo de páginas da web. Por exemplo:
wget -r http://mat.gsia.cmu.edu/orclass/integer/integer.html
Isso fará o download dessa página da Web e de tudo o que ela vincular. Você também pode repetir apenas um certo número de níveis; para isso, basta fornecer -r
um número. Assim:
wget -r 5 http://mat.gsia.cmu.edu/orclass/integer/integer.html
Este tópico é antigo agora, mas outros podem analisá-lo. Obrigado, Wuffers, por me indicar a direção certa, mas, para expandir a resposta de Wuffers: Uma versão moderna do wget tem várias opções úteis para links recorrentes e corrigi-los para serem links relativos locais, para que você possa navegar em uma cópia local de um site. Use a opção -r para recursar, a opção -k para corrigir links locais, a opção -H para atravessar em domínios diferentes do original, a opção -D para limitar em quais domínios você atravessar, a opção -l para limitar o profundidade de recursão e a opção -p para garantir que as folhas de sua travessia tenham tudo o que precisam para exibir corretamente. Por exemplo, o seguinte fará o download de uma página e tudo o que ela vincula imediatamente, tornando-a localmente navegável,
wget -r -l 1 -p -k -H -D domain.com,relateddomain.com http://domain.com/page/in/domain
Usando um comando semelhante ao acima, pude baixar um pedaço de uma página wiki, com links externos, para o meu disco local sem baixar megabytes de dados estranhos. Agora, quando abro a página raiz no meu navegador, posso navegar na árvore sem uma conexão com a Internet. O único irritante é que a página raiz estava oculta em subdiretórios e eu tive que criar uma página de redirecionamento de nível superior para facilitar a exibição. Pode levar algumas tentativas e erros para acertar. Leia a página de manual do wget e experimente.
fonte
Você pode usar um rastreador de site como o httrack , que é gratuito.
A partir do site;
fonte