Controle sobre o Internet Archive além de apenas "Proibir /"?

13

Existem mecanismos para controlar o que o Internet Archive arquiva em um site? Sei que não permitir todas as páginas que eu poderia adicionar :

User-agent: ia_archiver
Disallow: /
  1. Posso dizer ao bot que quero que ele rastreie meu site uma vez por mês ou uma vez por ano?

  2. Eu tenho um site / páginas que não são / não são arquivadas corretamente por causa de ativos não coletados. Existe uma maneira de dizer ao bot do Internet Archive quais recursos ele precisa para acessar o site?

artlung
fonte
Também estou muito interessado em respostas para isso. +1 :)
Tim Post

Respostas:

8

Nota : Esta resposta está cada vez mais desatualizada.

O maior colaborador da coleção da Web do Internet Archive foi o Alexa Internet. O material que o Alexa rastreia para seus fins foi doado à IA alguns meses depois. Adicionar a regra de proibição mencionada na pergunta não afeta esses rastreamentos, mas o Wayback os honrará 'retroativamente' (negando o acesso, o material ainda estará no arquivo morto - você deve excluir o robô da Alexa se realmente quiser manter o material fora do Internet Archive).

Pode haver maneiras de afetar os rastreamentos de Alexa, mas não estou familiarizado com isso.

Desde que a IA desenvolveu seu próprio rastreador (Heritrix), eles começaram a fazer seus próprios rastreamentos, mas esses tendem a ser rastreados (eles fazem rastreamentos eleitorais para a Biblioteca do Congresso e fazem rastreamentos nacionais para França e Austrália etc.). Eles não se envolvem no tipo de rastreamento sustentado em escala mundial que o Google e o Alexa conduzem. O maior rastreamento da IA ​​foi um projeto especial para rastrear 2 bilhões de páginas.

Como esses rastreamentos são operados com agendas derivadas de fatores específicos do projeto, você não pode afetar a frequência com que visitam o site ou se o visitam.

A única maneira de afetar diretamente como e quando o IA rastreia seu site é usar o serviço Archive-It . Esse serviço permite que você especifique rastreamentos personalizados. Os dados resultantes serão (eventualmente) incorporados à coleção da web da IA. No entanto, este é um serviço de assinatura paga .

Kris
fonte
3
Seu comentário sobre a IA fazendo seus próprios rastreamentos foi verdadeiro em 2011 e não é mais verdadeiro em 2016: agora fazemos muitos rastreamentos por conta própria.
precisa
@GregLindahl, você pode adicionar uma resposta atualizada a esta pergunta
Stephen Ostermiller
2

A maioria dos mecanismos de pesquisa suporta a diretiva "Atraso no rastreamento", mas não sei se a IA o suporta. Você pode tentar:

User-agent: ia_archiver
Crawl-delay: 3600

Isso limitaria o atraso entre solicitações a 3600 segundos (ou seja, 1 hora) ou ~ 700 solicitações por mês.

Eu não acho que o número 2 é possível - o bot da IA ​​pega os ativos como e quando achar necessário. Pode ter um limite de tamanho de arquivo para evitar o uso de muito armazenamento.

DisgruntledGoat
fonte
@Kris: Definir um atraso de rastreamento deve fazer isso por proxy. Se você tiver 30 páginas e instruir o rastreador a acessar apenas uma vez por dia, é provável que cada página seja atualizada aproximadamente a cada 30 dias. (Não é uma garantia, obviamente.)
DisgruntledGoat
Em teoria, sim, no entanto, se você estiver rastreando arquivos, nunca obedecerá a essa regra. Rastrear um site por documento por dia significa que você não pode obter uma boa captura do site em um momento específico. Se esse atributo fosse respeitado, ele teria um limite superior de 1 a 5 minutos em qualquer rastreamento de arquivo .
Kris
Ah, ok, entendo o seu ponto.
usar o seguinte
Acabei de examinar o Heritrix 3, lançado recentemente, e vejo que eles adicionaram manipulação da diretiva de atraso de rastreamento, mas o padrão é respeitar apenas um máximo de 300 segundos (5 minutos).
Kris