@tnorthcutt, também estou surpreso. Se não me lembro muito errado, minha resposta do Wget costumava ser a aceita, e isso parecia uma coisa acertada. Não estou reclamando - de repente, a atenção renovada me deu mais do que o valor da recompensa em recompensa. : P
@ Joe: Pode ajudar se você daria detalhes sobre o que as características ausentes são ...
Ilari Kajaste
browse-offline.com pode baixar a árvore completa do web-site para que você possa ... navegar off-line
Menelau Vergis
Respostas:
334
O HTTRACK funciona como um campeão para copiar o conteúdo de um site inteiro. Essa ferramenta pode até pegar as peças necessárias para fazer um site com conteúdo de código ativo funcionar offline. Estou impressionado com as coisas que ele pode replicar offline.
Isso copiaria o código ASP real que é executado no servidor?
Taptronic 19/03/10
8
@ Optimal Solutions: Não, isso não é possível. Você precisaria acessar os servidores ou o código fonte para isso.
Sasha Chedygov 31/03/10
2
Depois de tentar o httrack e o wget para sites com autorização, tenho que me apoiar no wget. Não foi possível fazer o httrack funcionar nesses casos.
Leo
1
Qual é a opção para autenticação?
vincent mathew
272
O Wget é uma ferramenta clássica de linha de comando para esse tipo de tarefa. Ele vem com a maioria dos sistemas Unix / Linux, e você pode obtê-lo também para Windows . Em um Mac, o Homebrew é a maneira mais fácil de instalá-lo ( brew install wget).
Não há uma resposta melhor do que este - wget pode fazer nada: 3
Phoshi
6
+1 por incluir o --no-parent. definitivamente use --mirror em vez de -r. e você pode incluir -L / - em relação a não seguir links para outros servidores.
quack quixote
2
Como também solicitei httrack.com - essa ferramenta de linha de cmd obteria o código ASP ou apenas obteria a renderização do HTML? Eu tenho que tentar isso. Este poderia ser um pouco preocupante para os desenvolvedores se isso acontecer ...
Taptronic
6
@optimal, a saída HTML é claro - seria obter o código apenas se o servidor foi mal configurado incorretamente
Jonik
2
infelizmente, isso não funciona para mim - há um problema com os links para arquivos css, eles não são alterados para relativo, ou seja, você pode ver algo assim nos arquivos: <link rel = "stylesheet" type = "text / css" href = "/ static / css / reset.css" media = "screen" /> que não funciona localmente bem, a menos que haja um waz para enganar o firefox e pensar que determinado diretório é uma raiz.
Gorn
148
Use wget:
wget -m -p -E -k www.example.com
As opções explicadas:
-m, --mirror Turns on recursion and time-stamping, sets infinite
recursion depth, and keeps FTP directory listings.
-p, --page-requisites Get all images, etc. needed to display HTML page.
-E, --adjust-extension Save HTML/CSS files with .html/.css extensions.
-k, --convert-links Make links in downloaded HTML point to local files.
+1 por fornecer as explicações para as opções sugeridas. (Embora eu não ache --mirrormuito explícito. Aqui está na página de manual: " Esta opção ativa a recursão e a marcação de tempo, define a profundidade da recursão infinita e mantém as listagens de diretórios FTP. Atualmente, é equivalente a -r -N - l inf --no-remove-
list
2
Se você não deseja fazer o download de tudo em uma pasta com o nome do domínio que deseja espelhar, crie sua própria pasta e use a opção -nH (que ignora a parte do host).
Rafael Bugajewski
2
E se o Auth for necessário?
Val
4
Eu tentei usar o seu wget --mirror -p --html-extension --convert-links www.example.come ele acabou de baixar o índice. Eu acho que você precisa -rbaixar o site inteiro.
Eric Brotto
4
para aqueles preocupados com matar um local devido a tráfego / muitos pedidos, use o -w seconds(esperar um número de secconds entre os pedidos, ou a --limit-rate=amount, para especificar a largura de banda máxima para usar durante o download
Não é mais compatível com o Firefox após a versão 57 (Quantum).
Yay295
8
O Internet Download Manager possui um utilitário Site Grabber com muitas opções - o que permite baixar completamente qualquer site que você quiser, da maneira que você quiser.
Você pode definir o limite do tamanho das páginas / arquivos para download
Você pode definir o número de sites da filial a visitar
Você pode alterar a maneira como os scripts / pop-ups / duplicados se comportam
Você pode especificar um domínio, somente nesse domínio serão baixadas todas as páginas / arquivos que atendem às configurações necessárias.
Os links podem ser convertidos em links offline para navegação
Você tem modelos que permitem escolher as configurações acima para você
No entanto, o software não é gratuito - verifique se ele atende às suas necessidades, use a versão de avaliação.
Vou abordar o buffer on-line que os navegadores usam ...
Normalmente, a maioria dos navegadores usa um cache de navegação para manter os arquivos baixados de um site por um tempo, para que você não precise baixar imagens e conteúdos estáticos repetidamente. Isso pode acelerar as coisas um pouco em algumas circunstâncias. De um modo geral, a maioria dos caches do navegador é limitada a um tamanho fixo e, quando atingir esse limite, excluirá os arquivos mais antigos do cache.
Os ISPs tendem a ter servidores de cache que mantêm cópias de sites comumente acessados como ESPN e CNN. Isso poupa o trabalho de acessar esses sites toda vez que alguém da rede entra lá. Isso pode significar uma economia significativa na quantidade de solicitações duplicadas para sites externos ao ISP.
Eu não faço isso há muitos anos, mas ainda existem alguns utilitários por aí. Você pode tentar o Web Snake . Acredito que o usei anos atrás. Lembrei-me do nome imediatamente quando li sua pergunta.
Eu concordo com Stecy. Por favor, não martele o site deles. Muito mal.
É um navegador offline poderoso e gratuito. Um programa de download e visualização de sites de alta velocidade e multi-threading. Ao fazer várias solicitações simultâneas ao servidor, o BackStreet Browser pode baixar rapidamente o site inteiro ou parte de um site, incluindo HTML, gráficos, Java Applets, som e outros arquivos definíveis pelo usuário, além de salvar todos os arquivos no disco rígido, no formato nativo, ou como um arquivo ZIP compactado e visualize off-line.
O Teleport Pro é outra solução gratuita que copia todo e qualquer arquivo de qualquer que seja o seu destino (também possui uma versão paga que permite que você extraia mais páginas de conteúdo).
O DownThemAll é um complemento do Firefox que baixa todo o conteúdo (arquivos de áudio ou vídeo, por exemplo) de uma página da web específica em um único clique. Isso não faz o download de todo o site, mas isso pode ser o tipo de pergunta que a pergunta estava procurando.
Só é capaz de baixar links (HTML) e mídia (imagens).
Ain
3
Para Linux e OS X: escrevi grab-site para arquivar sites inteiros em arquivos WARC . Esses arquivos WARC podem ser navegados ou extraídos. grab-site permite controlar quais URLs devem ser ignorados usando expressões regulares e elas podem ser alteradas quando o rastreamento estiver em execução. Ele também vem com um extenso conjunto de padrões para ignorar URLs indesejados.
Há um painel da web para monitorar rastreamentos, além de opções adicionais para ignorar o conteúdo ou respostas de vídeo em um determinado tamanho.
Enquanto o wget já foi mencionado, este recurso e linha de comando foram tão perfeitos que achei que mereciam ser mencionados:
wget -P /path/to/destination/directory/ -mpck --user-agent="" -e robots=off --wait 1 -E https://www.example.com/
Site Explorer O
Site Explorer permite exibir a estrutura de pastas de um site e fazer o download fácil dos arquivos ou pastas necessários. HTML Spider
Você pode baixar páginas da Web inteiras ou mesmo sites inteiros com o HTML Spider. A ferramenta pode ser ajustada para baixar arquivos apenas com extensões especificadas.
Acho que o Site Explorer é útil para ver quais pastas incluir / excluir antes de tentar baixar o site inteiro - especialmente quando há um fórum inteiro escondido no site que você não deseja baixar, por exemplo.
Uma página da web em seu navegador é apenas uma dentre muitos sites .
Arjan
@ Arjan Eu acho que isso torna minha opção trabalhosa. Eu acredito que é mais comum as pessoas quererem salvar apenas uma página, então essa resposta pode ser melhor para as pessoas que vêm aqui para isso.
Respostas:
O HTTRACK funciona como um campeão para copiar o conteúdo de um site inteiro. Essa ferramenta pode até pegar as peças necessárias para fazer um site com conteúdo de código ativo funcionar offline. Estou impressionado com as coisas que ele pode replicar offline.
Este programa fará tudo o que você precisar.
Caçada feliz!
fonte
O Wget é uma ferramenta clássica de linha de comando para esse tipo de tarefa. Ele vem com a maioria dos sistemas Unix / Linux, e você pode obtê-lo também para Windows . Em um Mac, o Homebrew é a maneira mais fácil de instalá-lo (
brew install wget
).Você faria algo como:
Para mais detalhes, consulte o Manual do Wget e seus exemplos , ou por exemplo, estes:
wget: Baixe sites inteiros com facilidade
Exemplos e scripts do wget
fonte
Use wget:
As opções explicadas:
fonte
--mirror
muito explícito. Aqui está na página de manual: " Esta opção ativa a recursão e a marcação de tempo, define a profundidade da recursão infinita e mantém as listagens de diretórios FTP. Atualmente, é equivalente a -r -N - l inf --no-remove-wget --mirror -p --html-extension --convert-links www.example.com
e ele acabou de baixar o índice. Eu acho que você precisa-r
baixar o site inteiro.-w seconds
(esperar um número de secconds entre os pedidos, ou a--limit-rate=amount
, para especificar a largura de banda máxima para usar durante o downloadVocê deve dar uma olhada no ScrapBook , uma extensão do Firefox. Possui um modo de captura detalhado .
fonte
O Internet Download Manager possui um utilitário Site Grabber com muitas opções - o que permite baixar completamente qualquer site que você quiser, da maneira que você quiser.
Você pode definir o limite do tamanho das páginas / arquivos para download
Você pode definir o número de sites da filial a visitar
Você pode alterar a maneira como os scripts / pop-ups / duplicados se comportam
Você pode especificar um domínio, somente nesse domínio serão baixadas todas as páginas / arquivos que atendem às configurações necessárias.
Os links podem ser convertidos em links offline para navegação
Você tem modelos que permitem escolher as configurações acima para você
No entanto, o software não é gratuito - verifique se ele atende às suas necessidades, use a versão de avaliação.
fonte
itsucks - esse é o nome do programa!
fonte
Vou abordar o buffer on-line que os navegadores usam ...
Normalmente, a maioria dos navegadores usa um cache de navegação para manter os arquivos baixados de um site por um tempo, para que você não precise baixar imagens e conteúdos estáticos repetidamente. Isso pode acelerar as coisas um pouco em algumas circunstâncias. De um modo geral, a maioria dos caches do navegador é limitada a um tamanho fixo e, quando atingir esse limite, excluirá os arquivos mais antigos do cache.
Os ISPs tendem a ter servidores de cache que mantêm cópias de sites comumente acessados como ESPN e CNN. Isso poupa o trabalho de acessar esses sites toda vez que alguém da rede entra lá. Isso pode significar uma economia significativa na quantidade de solicitações duplicadas para sites externos ao ISP.
fonte
Eu gosto do Offline Explorer .
É um shareware, mas é muito bom e fácil de usar.
fonte
O WebZip também é um bom produto.
fonte
Eu não faço isso há muitos anos, mas ainda existem alguns utilitários por aí. Você pode tentar o Web Snake . Acredito que o usei anos atrás. Lembrei-me do nome imediatamente quando li sua pergunta.
Eu concordo com Stecy. Por favor, não martele o site deles. Muito mal.
fonte
Experimente o BackStreet Browser .
fonte
O Teleport Pro é outra solução gratuita que copia todo e qualquer arquivo de qualquer que seja o seu destino (também possui uma versão paga que permite que você extraia mais páginas de conteúdo).
fonte
O DownThemAll é um complemento do Firefox que baixa todo o conteúdo (arquivos de áudio ou vídeo, por exemplo) de uma página da web específica em um único clique. Isso não faz o download de todo o site, mas isso pode ser o tipo de pergunta que a pergunta estava procurando.
fonte
Para Linux e OS X: escrevi grab-site para arquivar sites inteiros em arquivos WARC . Esses arquivos WARC podem ser navegados ou extraídos. grab-site permite controlar quais URLs devem ser ignorados usando expressões regulares e elas podem ser alteradas quando o rastreamento estiver em execução. Ele também vem com um extenso conjunto de padrões para ignorar URLs indesejados.
Há um painel da web para monitorar rastreamentos, além de opções adicionais para ignorar o conteúdo ou respostas de vídeo em um determinado tamanho.
fonte
Power wget
Enquanto o wget já foi mencionado, este recurso e linha de comando foram tão perfeitos que achei que mereciam ser mencionados:
wget -P /path/to/destination/directory/ -mpck --user-agent="" -e robots=off --wait 1 -E https://www.example.com/
Veja este código explicado no explicashell
fonte
O venerável FreeDownloadManager.org também possui esse recurso.
O Free Download Manager possui duas formas, de duas formas: Site Explorer e Site Spider :
Acho que o Site Explorer é útil para ver quais pastas incluir / excluir antes de tentar baixar o site inteiro - especialmente quando há um fórum inteiro escondido no site que você não deseja baixar, por exemplo.
fonte
baixar HTTracker ele irá baixar sites etapas muito fáceis a seguir.
link para download: http://www.httrack.com/page/2/
vídeo que ajuda a ajudá-lo: https://www.youtube.com/watch?v=7IHIGf6lcL4
fonte
O Firefox pode fazer isso de forma nativa (pelo menos, o FF 42 pode). Basta usar "Salvar página"
fonte
Acredito que o Google Chrome pode fazer isso em dispositivos de desktop, basta ir ao menu do navegador e clicar em Salvar página da web.
Observe também que serviços como o pocket podem não salvar o site e, portanto, são suscetíveis à podridão do link.
Por fim, observe que copiar o conteúdo de um site pode infringir os direitos autorais, se aplicável.
fonte