Como posso baixar um site inteiro?

81

Quero baixar um site inteiro (com sub-sites). Existe alguma ferramenta para isso?

UAdapter
fonte
1
o que exatamente você está tentando alcançar? o título e o conteúdo da sua pergunta não estão relacionados e o conteúdo não é específico.
RolandiXor
NB, apenas os links a seguir (por exemplo, usando o --convert-linkswget) não revelam sites que são revelados apenas pelo envio de um formulário, entre outras coisas.
Steven

Respostas:

140

Experimente o exemplo 10 daqui :

wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL
  • –mirror : ativar opções adequadas para espelhamento.

  • -p : baixe todos os arquivos necessários para exibir corretamente uma determinada página HTML.

  • --convert-links : após o download, converta os links no documento para visualização local.

  • -P ./LOCAL-DIR : salve todos os arquivos e diretórios no diretório especificado.
shellholic
fonte
existe alguma maneira de baixar apenas determinadas páginas (por exemplo, várias partes de um artigo que estão espalhadas por vários documentos html)?
don.joey
@ Privado Sim, embora seja provavelmente mais fácil usar python ou algo para obter as páginas (dependendo do layout / URL). Se o URL das páginas diferir de um número em constante crescimento ou se você tiver uma lista das páginas, provavelmente poderá usar o wget em um script bash.
Vreality
2
Você pode considerar usar o --wait=secondsargumento se quiser ser mais amigável ao site; esperará o número especificado de segundos entre as recuperações.
22714 Belacqua
o acima funciona, mas para o joomla o URL parametrizado cria arquivos que não estão vinculados localmente. A única funcionou para mim é wget -m k K -E your.domain.com a partir daqui: vaasa.hacklab.fi/2013/11/28/...
M.Hefny
1
Também --no-parentpara "nunca subir para o diretório pai" extraído daqui .
Daniel
38

HTTrack para Linux, copiando sites no modo offline

O httrack é a ferramenta que você está procurando.

O HTTrack permite que você baixe um site da Internet para um diretório local, criando recursivamente todos os diretórios, obtendo HTML, imagens e outros arquivos do servidor para o seu computador. O HTTrack organiza a estrutura de links relativa do site original.

Sid
fonte
7

Com wgetvocê pode baixar um site inteiro, você deve usar a -ropção para um download recursivo . Por exemplo,

wget -r http://www.google.com
Arthur Knopper
fonte
6

O WEBHTTRACK WEBSITE COPIER é uma ferramenta útil para baixar um site inteiro no disco rígido para navegação offline. Inicie o ubuntu software center e digite "webhttrack website copier" sem as aspas na caixa de pesquisa. selecione e faça o download do centro de software para o seu sistema. inicie o webHTTrack no menu inicial ou no menu Iniciar. A partir daí, você poderá começar a aproveitar essa ótima ferramenta para downloads do seu site

friseR
fonte
3

Eu não sei sobre subdomínios, ou seja, subsite, mas o wget pode ser usado para pegar um site completo. Dê uma olhada na questão deste superusuário . Ele diz que você pode usar -D domain1.com,domain2.compara baixar domínios diferentes em um único script. Eu acho que você pode usar essa opção para baixar subdomínios, ou seja,-D site1.somesite.com,site2.somesite.com

binW
fonte
1

Eu uso o Burp - a ferramenta spider é muito mais inteligente que o wget e pode ser configurada para evitar seções, se necessário. O Burp Suite em si é um poderoso conjunto de ferramentas para ajudar nos testes, mas a ferramenta spider é muito eficaz.

Rory Alsop
fonte
1
Não é o Burp Windows Only? O contrato de licença de código fechado do Burp também é bastante pesado. Para não mencionar o preço de US $ 299.00:
Kat Amsterdam
da licença: AVISO: A EDIÇÃO GRATUITA DO BURP SUITE É PROJETADA PARA TESTAR FALHAS DE SEGURANÇA E PODE DANIFICAR OS SISTEMAS ALVO, DEVIDO À NATUREZA DE SUA FUNCIONALIDADE. O teste de falhas de segurança envolve inerentemente a interação com os alvos de maneiras fora do padrão, o que pode causar problemas em alguns alvos vulgares. VOCÊ DEVE CUIDAR DEVIDO AO UTILIZAR O SOFTWARE, DEVE LER TODA A DOCUMENTAÇÃO ANTES DE USAR, DEVE CÓPIA DE SISTEMAS ALVO ANTES DE USAR E NÃO DEVE USAR O SOFTWARE EM SISTEMAS DE PRODUÇÃO OU OUTROS SISTEMAS PARA OS QUE O RISCO DE DANO NÃO É ACEITO POR VOCÊ .
Kat Amsterdam
Pelo que faz, o preço é incrivelmente barato - eu recomendaria comprá-lo para uma ampla variedade de testes de segurança. E é muito fácil configurá-lo para testar exatamente como você quer - mais seguro do que AppScan em alguns casos :-)
Rory Alsop
1
@KatAmsterdam Em relação especificamente à questão da compatibilidade: De acordo com a Wikipedia , o Burp Suite é um aplicativo Java, portanto deve funcionar bem no Ubuntu.
Elias Kagan
Kat - ele funciona bem em vários sabores do Linux. O aviso na licença é o mesmo de qualquer ferramenta que você pode usar para avaliações de segurança.
Rory Alsop
1

Você pode fazer o download do comando do site inteiro:

wget -r -l 0 website

Exemplo:

wget -r -l 0 http://google.com
Harish Kotikalapudi
fonte
Você pode explicar como esse comando funciona? O que faz?
Kaz Wolfe
0

Se a velocidade é uma preocupação (e o bem-estar do servidor não é), você pode tentar o puf , que funciona como o wget, mas pode baixar várias páginas em paralelo. No entanto, não é um produto acabado, não é mantido e é terrivelmente indocumentado. Ainda assim, para baixar um site com muitos arquivos pequenos, essa pode ser uma boa opção.

Loevborg
fonte