Eu preciso copiar um site via HTTP. Preciso fazer o download das imagens, HTML, CSS e JavaScript, além de organizá-lo em um sistema de arquivos.
Alguém sabe como fazer isso?
html
javascript
css
ripping
Damon
fonte
fonte
Respostas:
Isso é executado no console.
isso agarra um site, aguarda 3 segundos entre as solicitações, limita a velocidade de download para não matar o site e oculta-se de uma maneira que faz parecer apenas um navegador para que o site não o interrompa usando um mecanismo anti-sanguessuga.
Observe o
-A
parâmetro que indica uma lista dos tipos de arquivo que você deseja baixar.Você também pode usar outra tag,
-D domain1.com,domain2.com
para indicar uma série de domínios que deseja baixar se eles tiverem outro servidor ou o que for para hospedar diferentes tipos de arquivos. Não há maneira segura de automatizar isso para todos os casos, se você não obtiver os arquivos.wget
é geralmente pré-instalado no Linux, mas pode ser compilado trivialmente para outros sistemas Unix ou baixado facilmente para Windows: GNUwin32 WGETUse isso para o bem e não para o mal.
fonte
Solução boa e gratuita: HTTrack
fonte
Nos sistemas Linux, o 'wget' faz isso, basicamente.
Também foi portado para várias outras plataformas, como mencionam várias das outras respostas.
fonte
Obviamente, o WGet foi mencionado algumas vezes. A melhor interface do usuário que encontrei é
Existem algumas outras interfaces de usuário para o WGet around, algumas das quais são candidatas à pior pergunta da interface do usuário
fonte
Veja a extensão do Scrapbook do firefox. Ele faz um trabalho incrível nisso e também se integra ao firebug e permite excluir elementos do DOM antes de salvar, se desejar.
fonte
Você precisa usar o wget - que está disponível para a maioria das plataformas. o curl não solicitará documentos recursivamente, que é um dos principais pontos fortes do wget.
Linux: (geralmente incluído na distribuição) http://www.gnu.org/software/wget/
Windows: http://gnuwin32.sourceforge.net/packages/wget.htm
Mac: http: //www.geekology. co.za/blog/2009/02/macports-compile-and-install-open-source-software-on-mac-os-x/
POR FAVOR, verifique se você não está atacando o site - configure atrasos adequados entre solicitações e verifique se ele está dentro dos termos de serviço do site.
-Adão
fonte
Na verdade, acompanhando meu comentário no post do GWLlosa, lembrei-me de ter o GnuWin32 instalado e, com certeza, ele contém uma porta Windows do wget.
http://sourceforge.net/projects/gnuwin32/
fonte
Eu usei isso há alguns anos e funcionou bem. Apenas Windows. Costumava ser adware, mas não mais, aparentemente:
http://www.webreaper.net/
fonte
wget --random-wait -r -p -e robots=off -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" --limit-rate=20k -b http://www.example.com
fonte
-c
(ou--continue
) a opção quando as coisas dão errado e tenho que reiniciar o processo.Eu acho que o grabber de sites IDM é a melhor solução, também há o Teleport pro
fonte
O Free Download Manager também pode baixar sites completos.
Apenas Windows, eu acho.
fonte