Eu tenho um site que geralmente não quero que seja indexado pelos mecanismos de busca, mas quero preservá-lo por toda a eternidade em archive.org. Então, meu robots.txt
começo com isso:
User-agent: *
Disallow: /
Hoje, de acordo com o archive.org , tenho que adicionar o seguinte no meu robots.txt
para permitir seus bots:
User-agent: ia_archiver
Disallow:
Mas, eu já tinha feito o que eles indicaram há alguns anos, pelo menos, adicionei o seguinte:
User-agent: archive.org_bot
Disallow:
Depois, há outra fonte alegando que você deve adicionar os dois Disallow
s acima , além de outro:
User-agent: ia_archiver-web.archive.org
Disallow:
Observe que você precisa colocar Disallow: /
se não quiser que o bot arquive seu site.
Houve uma mudança no bot de IA? Se assim for, quando?
Qual é o caminho recomendado? Devo apenas permitir os três por enquanto e torcer para que a IA não mude seu nome de bot novamente no futuro?
Respostas:
Atualização : Como o @KevinFegan observa nos comentários, a documentação deles foi alterada. A parte abaixo descreve como o Internet Archive o tratou no passado (pelo menos em 2014).
Perguntas frequentes Como posso excluir as páginas do meu site da Wayback Machine? refere-se a Remoção de documentos da máquina Wayback , que documenta que seu bot é chamado
ia_archiver
.Portanto, esse registro deve permitir que o bot deles rastreie todo o site:
fonte
*
grupo corresponde apenas quando nenhum outro grupo corresponde.Existem realmente duas questões aqui:
robots.txt
site em seu site não permitirá (bloquear) que o Wayback rastreie seu site.Para o ponto 1:
como já foi dito, a entrada correta para o robots.txt é:
Lembre-se de que pode demorar um pouco (talvez um bom tempo) para que o Wayback observe as alterações feitas no robots.txt.
Para verificar se o
robots.txt
site permitirá que o Wayback rastreie seu site:"Browse History"
botão"Save Page"
botão.Neste ponto, você deve ver 1 de 3 coisas:
Agora, para o ponto 2:
O Wayback rastreará seu site?
Só porque você Permitir Wayback para rastrear o seu site, não significa que eles (sempre) irá rastrear o seu site.
De acordo com o Wayback FAQ (ênfase adicionada):
Atualização: 09 de maio de 2017
Outros deixaram comentários / respostas indicando que o Archive.org não respeita mais o robots.txt. Talvez esse seja um "trabalho em andamento" e acabe sendo o caso, mas ainda não vi esse novo comportamento.
O argumento para isso parece vir deste artigo: Robots.txt: ROBOTS.TXT É UMA NOTA DE SUICÍDIO por
archiveteam.org
. Embora essa página tenha pouco ou nada de bom a dizer sobre "Robots.txt", ela não menciona em nenhum lugar que o Archive.org não honre mais o robots.txt.Observe também: esse artigo está hospedado
archiveteam.org
, o que definitivamente não éarchive.org
, e não tenho certeza de que exista alguma relação (oficial) entrearchive.org
earchiveteam.org
.De fato, esta página sobre a equipe de arquivamento parece declarar uma distinção entre e (ênfase adicionada):
archive.org
archive.org
archiveteam.org
De qualquer forma, decidi tentar e descobri que, pelo menos nesse momento, o Archive.org AINDA honra o robots.txt:
archive.org
indica que a "Página não pode ser exibida devido ao robots.txt".Então, neste momento, continuo não convencido, mas adoraria provar que estou errado ... seria ótimo se fosse verdade.
fonte
Atualização 2017
O bot de arquivamento agora não se importa com o seu robots.txt.
Se você realmente deseja bloqueá-lo, envie um e-mail para eles de acordo com esta página ou bloqueie o endereço IP via htaccess.
fonte
A entrada robots.txt ia_archiver Disallow (com o "/") deve ser adequada à necessidade que você descreve (para "preservar por toda a eternidade", mas ainda não publicamente).
Acabei de fazer um teste rápido, comentando a entrada ia_archiver Disallow para um site que o possuía há pelo menos 10 anos. Depois procurei o site em archive.org/web, e ele apareceu em coletar em 2007, 2008, 2009, 2011, 2012, 2013, 2014, 2015, 2016 e 2017! Isso significa que o Archive.org nunca honrou estritamente o que os outros pensavam ser uma declaração de "não arquivar" durante esses anos, apenas não estava expondo as cópias arquivadas.
fonte
fonte
Eu tentei o
robots.txt
método e não funcionou. Então, entrei em contato com o site pelo email [email protected]:E eu recebi a seguinte resposta:
Criei
wayback-removal-request.html
com o seguinte conteúdo (nem mesmo HTML válido):Carreguei e respondi ao email com o URL a partir do qual a página estava disponível e, mais tarde, recebi a seguinte resposta:
Quando verifiquei algumas horas depois, meu site foi removido.
fonte