O Google armazena em cache o robots.txt?

17

Adicionei um arquivo robots.txt a um dos meus sites há uma semana, o que deveria ter impedido o Googlebot de tentar buscar determinados URLs. No entanto, neste fim de semana, vejo o Googlebot carregando esses URLs exatos.

O Google armazena em cache o robots.txt e, em caso afirmativo, deveria?

Quog
fonte

Respostas:

13

Eu recomendo fortemente o registro do seu site no Google Search Console (anteriormente Ferramentas do Google para webmasters) . Há uma seção de acesso ao rastreador na configuração do site que informa quando o seu arquivo robots.txt foi baixado pela última vez. A ferramenta também fornece muitos detalhes sobre como os rastreadores estão vendo seu site, o que está bloqueado ou não está funcionando e onde você está aparecendo nas consultas do Google.

Pelo que sei, o Google baixa frequentemente o robots.txt . O site do Google Search Console também permite remover especificamente URLs do índice, para que você possa remover aqueles que estão bloqueando agora.

danivovich
fonte
2
Verifiquei as ferramentas para webmasters: o arquivo robots.txt é válido e foi buscado mais recentemente 17 horas antes da visita mais recente a essas páginas pelo googlebot. Suspeito que seja uma questão de propagação pela rede do google - eventualmente todos os servidores do googlebot acompanharão as instruções do robots.txt.
Quog
O bot do Google não usa o robots.txt com tanta frequência quanto as atualizações são relatadas no Search Console. Faz quatro semanas que fiz uma atualização, e o bot do Google ainda usa um robots.txt ruim - e destrói nosso tráfego e classificações.
Corporate Geek
3

Perseverar. Mudei do robots.txt para o meta noindex, nofollow. Para que a meta funcionasse, os endereços bloqueados no robots.txt precisavam ser desbloqueados primeiro.

Fiz isso brutalmente, excluindo o robots.txt completamente (e detalhando-o no webmaster do google).

O processo de remoção do robots.txt, conforme visto na ferramenta para webmasters (número de páginas bloqueadas), levou 10 semanas para ser concluído, dos quais o volume foi removido apenas pelo Google nas últimas duas semanas.

araldh
fonte
Eu tendem a concordar com você. Cometemos um erro e atualizamos incorretamente o arquivo robots.txt. O Google o armazenou em cache e o está usando quatro semanas depois que corrigimos o erro e o substituímos por um novo robots.txt. Até enviei manualmente uma solicitação de atualização nas Ferramentas do Google para webmasters e ... nada. Isso é muito ruim, pois resultou em perda de tráfego e rankings. :(
Corporate Geek
2

Sim, o Google obviamente armazenará em cache o robots.txt até certo ponto - ele não será baixado toda vez que quiser visualizar uma página. Por quanto tempo o armazena em cache, não sei. No entanto, se você tiver um cabeçalho Expira longo definido, o Googlebot poderá demorar muito mais para verificar o arquivo.

Outro problema pode ser um arquivo mal configurado. Nas Ferramentas do Google para webmasters que danivovich sugere, há um verificador robots.txt . Ele informará quais tipos de páginas estão bloqueados e quais estão corretos.

DisgruntledGoat
fonte
Veja o comentário nesta resposta webmasters.stackexchange.com/questions/2272/…
Quog
2
@Quog: assista a este vídeo recente: youtube.com/watch?v=I2giR-WKUfY Matt Cutts sugere que o robots.txt seja baixado uma vez por dia ou a cada 100 solicitações.
usar o seguinte
2

A documentação do Google afirma que eles geralmente armazenam em cache o robots.txt por um dia, mas podem usá-lo por mais tempo se receberem erros ao tentar atualizá-lo.

Uma solicitação robots.txt geralmente é armazenada em cache por até um dia, mas pode ser armazenada em cache por mais tempo em situações em que a atualização da versão em cache não é possível (por exemplo, devido a tempos limite ou erros 5xx). A resposta em cache pode ser compartilhada por diferentes rastreadores. O Google pode aumentar ou diminuir a vida útil do cache com base nos cabeçalhos HTTP de controle de cache com idade máxima.

Stephen Ostermiller
fonte
1

Sim. Eles dizem que normalmente o atualizam uma vez por dia, mas alguns sugeriram que também podem verificá-lo após um certo número de acessos à página (100?), Para que sites mais ocupados sejam verificados com mais frequência.

Consulte /webmasters//a/29946 e o vídeo que o @DisgruntedGoat compartilhou acima http://youtube.com/watch?v=I2giR-WKUfY .

studgeek
fonte
1

Pelo que vejo no cache acessível ao usuário, o que você precisa fazer é digitar o URL do seu arquivo robots.txt em uma Pesquisa do Google e clicar na pequena seta verde suspensa e clicar em 'cache' (veja a imagem abaixo) isso fornecerá a versão mais recente dessa página nos servidores do Google.

insira a descrição da imagem aqui

sam
fonte
-2

Você pode solicitar sua remoção usando a ferramenta de remoção de URL do Google .

KOZASHI SOUZA
fonte
Isso não responde à pergunta.
MrWhite
por que não a resposta?
KOZASHI SOUZA
Porque a pergunta é especificamente sobre robots.txt, cache e rastreamento de URLs. Um dos resultados disso pode ser que os URLs não são indexados, mas essa não é a questão. (Ferramenta de remoção de URL do Google também é apenas uma correção "tempoary", há outros passos que você precisa fazer para torná-lo permanente.)
MrWhite