Como arquivar o site inteiro?

14

Para salvar uma única página via Wayback Machine , posso ir para:

http://web.archive.org/save/https://somewebsite.example.com/

Como posso arquivar o site recursivamente pela Wayback Machine ?

Existe algum projeto como wayback-machine-downloader, mas estou procurando um recurso que permita o upload recursivo do site.

archive.org kenorb
fonte

11

Como o Wayback Machine não fornece esse recurso, eu encontrei algumas soluções alternativas.

Primeiro, espelhe o site usando wget, por exemplo,
```
wget -m https://example.com/
```
Em seguida, use curlpara arquivar todas as páginas uma por uma que você baixou.
```
find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ';'
```
^{Nota: Você pode mudar .htmlpara .php, ou incluir determinados tipos de arquivos.}

kenorb
fonte

Se o site não usa extensões (como html ou php, como o SE está configurado), como você adapta seu comando?

db

2

Você pode mudar -name "*.html"para -type fincluir todos os arquivos.

Kenorb

Como isso funciona com os parâmetros de consulta?

Mithical 9/03/19

6

Se você deseja arquivar um site pequeno, a equipe de arquivamento mantém o ArchiveBot , um bot de IRC onde você pode solicitar o rastreamento de sites. A equipe de arquivamento enviará as páginas rastreadas à Wayback Machine do Internet Archive.

Fluxo
fonte

Isso é incrivelmente útil.

Guy

1

O Wayback Machine não oferece uma maneira de enviar um site inteiro, apenas uma página como você já encontrou. Isso é abordado em alguns pontos das Perguntas frequentes sobre o Wayback Machine :

Posso adicionar páginas ao Wayback Machine?

Em https://archive.org/web, você pode usar o recurso "Salvar página agora" para salvar uma página específica uma vez. No momento, ele não adiciona o URL a nenhum rastreamento futuro nem salva mais do que essa página. Não salva várias páginas, diretórios ou sites inteiros .

e

Como posso incluir meu site na Wayback Machine?

Muitos dos dados da Web arquivados são provenientes de nossos próprios rastreamentos ou dos rastreamentos da Alexa Internet. Nenhuma organização possui um "rastrear meu site agora!" processo de envio . Os rastreamentos do Internet Archive tendem a encontrar sites bem vinculados a outros sites. A melhor maneira de garantir que localizamos seu site é garantir que ele esteja incluído nos diretórios on-line e que sites semelhantes / relacionados sejam vinculados a você.

John C
fonte

1

Esta não é uma resposta para a pergunta. Só porque não há uma maneira oficial de fazer isso, a tarefa não é impossível de executar. De fato, deve ser bem fácil criar um script que adicione links recursivamente.

db

@db, a resposta do kenorb parece ser o que você estava pedindo. Aliás, essa resposta é mais útil para mim no momento, pois eu só queria que o WaybackMachine capturasse uma página para mim agora.

cp.engr 6/0518

1

Este artigo no archive.org também sugere um serviço pago que fará o rastreamento para você quantas vezes você desejar:

Inscreva-se para uma conta Archive-It

Archive-É um serviço de assinatura fornecido pelo Internet Archive que permite executar seus próprios projetos de rastreamento sem nenhum conhecimento técnico. Diga-nos o que rastrear e com que frequência rastrear. Executamos o rastreamento e colocamos os resultados na Wayback Machine.

Provavelmente não é isso que você procura, mas para algumas empresas esse serviço pode ser útil. Suponho que ajude a financiar o archive.org, que de outra forma é gratuito.

Stason
fonte

Como arquivar o site inteiro?

Respostas: