Quero obter todos os arquivos de um determinado site em archive.org. Os motivos podem incluir:
- o autor original não arquivou seu próprio site e agora está offline, quero fazer um cache público a partir dele
- Eu sou o autor original de um site e perdi algum conteúdo. Quero recuperá-lo
- ...
Como faço isso ?
Levando em consideração que a máquina wayback archive.org é muito especial: os links das páginas da Web não estão apontando para o próprio arquivo, mas para uma página da Web que pode não estar mais lá. O JavaScript é usado no lado do cliente para atualizar os links, mas um truque como um wget recursivo não funcionará.
gem install wayback_machine_downloader
. Execute wayback_machine_downloader com o URL base do site que você deseja recuperar como parâmetro:wayback_machine_downloader http://example.com
Mais informações: github.com/hartator/wayback_machine_downloaderRespostas:
Tentei diferentes maneiras de baixar um site e, finalmente, encontrei o downloader da máquina de wayback - que já havia sido mencionado pelo Hartator (então todos os créditos são para ele, por favor), mas simplesmente não percebi o comentário dele à pergunta. Para economizar seu tempo, decidi adicionar a gema wayback_machine_downloader como uma resposta separada aqui.
O site http://www.archiveteam.org/index.php?title=Restoring lista essas maneiras de fazer o download em archive.org:
fonte
Isso pode ser feito usando um script shell bash combinado com
wget
.A idéia é usar alguns dos recursos de URL da máquina de wayback:
http://web.archive.org/web/*/http://domain/*
listará todas as páginas salvas de formahttp://domain/
recursiva. Ele pode ser usado para construir um índice de páginas para baixar e evitar heurísticas para detectar links em páginas da web. Para cada link, há também a data da primeira versão e da última versão.http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/page
listará todas as versões dohttp://domain/page
ano AAAA. Dentro dessa página, links específicos para versões podem ser encontrados (com data e hora exata)http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/page
retornará a página não modificadahttp://domain/page
no carimbo de data / hora especificado. Observe o token id_ .Estes são os princípios básicos para criar um script para baixar tudo de um determinado domínio.
fonte
http://web.archive.org/web/19981202230410/http://www.google.com/
) e adicionarid_
ao final dos "números da data". Então, você obteria algo comohttp://web.archive.org/web/19981202230410id_/http://www.google.com/
.Existe uma ferramenta projetada especificamente para esse fim, Warrick: https://code.google.com/p/warrick/
É baseado no protocolo Memento.
fonte
Você pode fazer isso facilmente com
wget
.Onde
ROOT
está o URL raiz do site eSTART
o URL inicial. Por exemplo:Observe que você deve ignorar o quadro de agrupamento do arquivo da Web para
START
URL. Na maioria dos navegadores, você pode clicar com o botão direito do mouse na página e selecionar "Mostrar apenas este quadro".fonte