Existem mecanismos para controlar o que o Internet Archive arquiva em um site? Sei que não permitir todas as páginas que eu poderia adicionar :
User-agent: ia_archiver
Disallow: /
Posso dizer ao bot que quero que ele rastreie meu site uma vez por mês ou uma vez por ano?
Eu tenho um site / páginas que não são / não são arquivadas corretamente por causa de ativos não coletados. Existe uma maneira de dizer ao bot do Internet Archive quais recursos ele precisa para acessar o site?
cache
internet-archive
artlung
fonte
fonte
Respostas:
Nota : Esta resposta está cada vez mais desatualizada.
O maior colaborador da coleção da Web do Internet Archive foi o Alexa Internet. O material que o Alexa rastreia para seus fins foi doado à IA alguns meses depois. Adicionar a regra de proibição mencionada na pergunta não afeta esses rastreamentos, mas o Wayback os honrará 'retroativamente' (negando o acesso, o material ainda estará no arquivo morto - você deve excluir o robô da Alexa se realmente quiser manter o material fora do Internet Archive).
Pode haver maneiras de afetar os rastreamentos de Alexa, mas não estou familiarizado com isso.
Desde que a IA desenvolveu seu próprio rastreador (Heritrix), eles começaram a fazer seus próprios rastreamentos, mas esses tendem a ser rastreados (eles fazem rastreamentos eleitorais para a Biblioteca do Congresso e fazem rastreamentos nacionais para França e Austrália etc.). Eles não se envolvem no tipo de rastreamento sustentado em escala mundial que o Google e o Alexa conduzem. O maior rastreamento da IA foi um projeto especial para rastrear 2 bilhões de páginas.
Como esses rastreamentos são operados com agendas derivadas de fatores específicos do projeto, você não pode afetar a frequência com que visitam o site ou se o visitam.
A única maneira de afetar diretamente como e quando o IA rastreia seu site é usar o serviço Archive-It . Esse serviço permite que você especifique rastreamentos personalizados. Os dados resultantes serão (eventualmente) incorporados à coleção da web da IA. No entanto, este é um serviço de assinatura paga .
fonte
A maioria dos mecanismos de pesquisa suporta a diretiva "Atraso no rastreamento", mas não sei se a IA o suporta. Você pode tentar:
Isso limitaria o atraso entre solicitações a 3600 segundos (ou seja, 1 hora) ou ~ 700 solicitações por mês.
Eu não acho que o número 2 é possível - o bot da IA pega os ativos como e quando achar necessário. Pode ter um limite de tamanho de arquivo para evitar o uso de muito armazenamento.
fonte