Como posso baixar um site inteiro?

351

Como posso baixar todas as páginas de um site?

Qualquer plataforma está bem.

joe
fonte
2
Confira serverfault.com/questions/45096/website-backup-and-download na falha do servidor.
22413 Marko Carter
@tnorthcutt, também estou surpreso. Se não me lembro muito errado, minha resposta do Wget costumava ser a aceita, e isso parecia uma coisa acertada. Não estou reclamando - de repente, a atenção renovada me deu mais do que o valor da recompensa em recompensa. : P
Jonik
você tentou o IDM? superuser.com/questions/14403/… minha postagem está oculta. O que você achou faltando no IDM?
Lazer
5
@ Joe: Pode ajudar se você daria detalhes sobre o que as características ausentes são ...
Ilari Kajaste
browse-offline.com pode baixar a árvore completa do web-site para que você possa ... navegar off-line
Menelau Vergis

Respostas:

334

O HTTRACK funciona como um campeão para copiar o conteúdo de um site inteiro. Essa ferramenta pode até pegar as peças necessárias para fazer um site com conteúdo de código ativo funcionar offline. Estou impressionado com as coisas que ele pode replicar offline.

Este programa fará tudo o que você precisar.

Caçada feliz!

Axxmasterr
fonte
7
Utilizado há anos - altamente recomendado.
Umber Ferrule
4
Isso copiaria o código ASP real que é executado no servidor?
Taptronic 19/03/10
8
@ Optimal Solutions: Não, isso não é possível. Você precisaria acessar os servidores ou o código fonte para isso.
Sasha Chedygov 31/03/10
2
Depois de tentar o httrack e o wget para sites com autorização, tenho que me apoiar no wget. Não foi possível fazer o httrack funcionar nesses casos.
Leo
1
Qual é a opção para autenticação?
vincent mathew
272

O Wget é uma ferramenta clássica de linha de comando para esse tipo de tarefa. Ele vem com a maioria dos sistemas Unix / Linux, e você pode obtê-lo também para Windows . Em um Mac, o Homebrew é a maneira mais fácil de instalá-lo ( brew install wget).

Você faria algo como:

wget -r --no-parent http://site.com/songs/

Para mais detalhes, consulte o Manual do Wget e seus exemplos , ou por exemplo, estes:

Jonik
fonte
12
Não há uma resposta melhor do que este - wget pode fazer nada: 3
Phoshi
6
+1 por incluir o --no-parent. definitivamente use --mirror em vez de -r. e você pode incluir -L / - em relação a não seguir links para outros servidores.
quack quixote
2
Como também solicitei httrack.com - essa ferramenta de linha de cmd obteria o código ASP ou apenas obteria a renderização do HTML? Eu tenho que tentar isso. Este poderia ser um pouco preocupante para os desenvolvedores se isso acontecer ...
Taptronic
6
@optimal, a saída HTML é claro - seria obter o código apenas se o servidor foi mal configurado incorretamente
Jonik
2
infelizmente, isso não funciona para mim - há um problema com os links para arquivos css, eles não são alterados para relativo, ou seja, você pode ver algo assim nos arquivos: <link rel = "stylesheet" type = "text / css" href = "/ static / css / reset.css" media = "screen" /> que não funciona localmente bem, a menos que haja um waz para enganar o firefox e pensar que determinado diretório é uma raiz.
Gorn
148

Use wget:

wget -m -p -E -k www.example.com

As opções explicadas:

-m, --mirror            Turns on recursion and time-stamping, sets infinite 
                          recursion depth, and keeps FTP directory listings.
-p, --page-requisites   Get all images, etc. needed to display HTML page.
-E, --adjust-extension  Save HTML/CSS files with .html/.css extensions.
-k, --convert-links     Make links in downloaded HTML point to local files.
user9437
fonte
8
+1 por fornecer as explicações para as opções sugeridas. (Embora eu não ache --mirrormuito explícito. Aqui está na página de manual: " Esta opção ativa a recursão e a marcação de tempo, define a profundidade da recursão infinita e mantém as listagens de diretórios FTP. Atualmente, é equivalente a -r -N - l inf --no-remove-
list
2
Se você não deseja fazer o download de tudo em uma pasta com o nome do domínio que deseja espelhar, crie sua própria pasta e use a opção -nH (que ignora a parte do host).
Rafael Bugajewski
2
E se o Auth for necessário?
Val
4
Eu tentei usar o seu wget --mirror -p --html-extension --convert-links www.example.come ele acabou de baixar o índice. Eu acho que você precisa -rbaixar o site inteiro.
Eric Brotto
4
para aqueles preocupados com matar um local devido a tráfego / muitos pedidos, use o -w seconds(esperar um número de secconds entre os pedidos, ou a --limit-rate=amount, para especificar a largura de banda máxima para usar durante o download
Vlad-ardelean
8

Você deve dar uma olhada no ScrapBook , uma extensão do Firefox. Possui um modo de captura detalhado .

insira a descrição da imagem aqui

webjunkie
fonte
5
Não é mais compatível com o Firefox após a versão 57 (Quantum).
Yay295
8

O Internet Download Manager possui um utilitário Site Grabber com muitas opções - o que permite baixar completamente qualquer site que você quiser, da maneira que você quiser.

  1. Você pode definir o limite do tamanho das páginas / arquivos para download

  2. Você pode definir o número de sites da filial a visitar

  3. Você pode alterar a maneira como os scripts / pop-ups / duplicados se comportam

  4. Você pode especificar um domínio, somente nesse domínio serão baixadas todas as páginas / arquivos que atendem às configurações necessárias.

  5. Os links podem ser convertidos em links offline para navegação

  6. Você tem modelos que permitem escolher as configurações acima para você

insira a descrição da imagem aqui

No entanto, o software não é gratuito - verifique se ele atende às suas necessidades, use a versão de avaliação.

de Lazer
fonte
7

itsucks - esse é o nome do programa!

kmarsh
fonte
5

Vou abordar o buffer on-line que os navegadores usam ...

Normalmente, a maioria dos navegadores usa um cache de navegação para manter os arquivos baixados de um site por um tempo, para que você não precise baixar imagens e conteúdos estáticos repetidamente. Isso pode acelerar as coisas um pouco em algumas circunstâncias. De um modo geral, a maioria dos caches do navegador é limitada a um tamanho fixo e, quando atingir esse limite, excluirá os arquivos mais antigos do cache.

Os ISPs tendem a ter servidores de cache que mantêm cópias de sites comumente acessados ​​como ESPN e CNN. Isso poupa o trabalho de acessar esses sites toda vez que alguém da rede entra lá. Isso pode significar uma economia significativa na quantidade de solicitações duplicadas para sites externos ao ISP.

Axxmasterr
fonte
5

Eu gosto do Offline Explorer .
É um shareware, mas é muito bom e fácil de usar.

Eran
fonte
4

Eu não faço isso há muitos anos, mas ainda existem alguns utilitários por aí. Você pode tentar o Web Snake . Acredito que o usei anos atrás. Lembrei-me do nome imediatamente quando li sua pergunta.

Eu concordo com Stecy. Por favor, não martele o site deles. Muito mal.

Bobby Ortiz
fonte
3

Experimente o BackStreet Browser .

É um navegador offline poderoso e gratuito. Um programa de download e visualização de sites de alta velocidade e multi-threading. Ao fazer várias solicitações simultâneas ao servidor, o BackStreet Browser pode baixar rapidamente o site inteiro ou parte de um site, incluindo HTML, gráficos, Java Applets, som e outros arquivos definíveis pelo usuário, além de salvar todos os arquivos no disco rígido, no formato nativo, ou como um arquivo ZIP compactado e visualize off-line.

insira a descrição da imagem aqui

joe
fonte
3

O Teleport Pro é outra solução gratuita que copia todo e qualquer arquivo de qualquer que seja o seu destino (também possui uma versão paga que permite que você extraia mais páginas de conteúdo).

pretzel
fonte
3

O DownThemAll é um complemento do Firefox que baixa todo o conteúdo (arquivos de áudio ou vídeo, por exemplo) de uma página da web específica em um único clique. Isso não faz o download de todo o site, mas isso pode ser o tipo de pergunta que a pergunta estava procurando.

Will M
fonte
Só é capaz de baixar links (HTML) e mídia (imagens).
Ain
3

Para Linux e OS X: escrevi grab-site para arquivar sites inteiros em arquivos WARC . Esses arquivos WARC podem ser navegados ou extraídos. grab-site permite controlar quais URLs devem ser ignorados usando expressões regulares e elas podem ser alteradas quando o rastreamento estiver em execução. Ele também vem com um extenso conjunto de padrões para ignorar URLs indesejados.

Há um painel da web para monitorar rastreamentos, além de opções adicionais para ignorar o conteúdo ou respostas de vídeo em um determinado tamanho.

Ivan Kozik
fonte
1

Power wget

Enquanto o wget já foi mencionado, este recurso e linha de comando foram tão perfeitos que achei que mereciam ser mencionados: wget -P /path/to/destination/directory/ -mpck --user-agent="" -e robots=off --wait 1 -E https://www.example.com/

Veja este código explicado no explicashell

Shwaydogg
fonte
0

O venerável FreeDownloadManager.org também possui esse recurso.

O Free Download Manager possui duas formas, de duas formas: Site Explorer e Site Spider :

Site Explorer O
Site Explorer permite exibir a estrutura de pastas de um site e fazer o download fácil dos arquivos ou pastas necessários.
HTML Spider
Você pode baixar páginas da Web inteiras ou mesmo sites inteiros com o HTML Spider. A ferramenta pode ser ajustada para baixar arquivos apenas com extensões especificadas.

Acho que o Site Explorer é útil para ver quais pastas incluir / excluir antes de tentar baixar o site inteiro - especialmente quando há um fórum inteiro escondido no site que você não deseja baixar, por exemplo.

David d C e Freitas
fonte
-3

O Firefox pode fazer isso de forma nativa (pelo menos, o FF 42 pode). Basta usar "Salvar página"

insira a descrição da imagem aqui

user1032531
fonte
6
Errado! A pergunta pergunta como salvar um site inteiro. O Firefox não pode fazer isso.
2
Seu método funciona apenas se for um site de uma página, mas se o site tiver 699 páginas? Seria muito cansativo ...
Quidam 15/12
-4

Acredito que o Google Chrome pode fazer isso em dispositivos de desktop, basta ir ao menu do navegador e clicar em Salvar página da web.

Observe também que serviços como o pocket podem não salvar o site e, portanto, são suscetíveis à podridão do link.

Por fim, observe que copiar o conteúdo de um site pode infringir os direitos autorais, se aplicável.

jiggunjer
fonte
3
Uma página da web em seu navegador é apenas uma dentre muitos sites .
Arjan
@ Arjan Eu acho que isso torna minha opção trabalhosa. Eu acredito que é mais comum as pessoas quererem salvar apenas uma página, então essa resposta pode ser melhor para as pessoas que vêm aqui para isso.
Jiggunjer 17/05