Adicionei um arquivo robots.txt a um dos meus sites há uma semana, o que deveria ter impedido o Googlebot de tentar buscar determinados URLs. No entanto, neste fim de semana, vejo o Googlebot carregando esses URLs exatos.
O Google armazena em cache o robots.txt e, em caso afirmativo, deveria?
Perseverar. Mudei do robots.txt para o meta noindex, nofollow. Para que a meta funcionasse, os endereços bloqueados no robots.txt precisavam ser desbloqueados primeiro.
Fiz isso brutalmente, excluindo o robots.txt completamente (e detalhando-o no webmaster do google).
O processo de remoção do robots.txt, conforme visto na ferramenta para webmasters (número de páginas bloqueadas), levou 10 semanas para ser concluído, dos quais o volume foi removido apenas pelo Google nas últimas duas semanas.
fonte
Sim, o Google obviamente armazenará em cache o robots.txt até certo ponto - ele não será baixado toda vez que quiser visualizar uma página. Por quanto tempo o armazena em cache, não sei. No entanto, se você tiver um cabeçalho Expira longo definido, o Googlebot poderá demorar muito mais para verificar o arquivo.
Outro problema pode ser um arquivo mal configurado. Nas Ferramentas do Google para webmasters que danivovich sugere, há um verificador robots.txt . Ele informará quais tipos de páginas estão bloqueados e quais estão corretos.
fonte
A documentação do Google afirma que eles geralmente armazenam em cache o robots.txt por um dia, mas podem usá-lo por mais tempo se receberem erros ao tentar atualizá-lo.
fonte
Sim. Eles dizem que normalmente o atualizam uma vez por dia, mas alguns sugeriram que também podem verificá-lo após um certo número de acessos à página (100?), Para que sites mais ocupados sejam verificados com mais frequência.
Consulte /webmasters//a/29946 e o vídeo que o @DisgruntedGoat compartilhou acima http://youtube.com/watch?v=I2giR-WKUfY .
fonte
Pelo que vejo no cache acessível ao usuário, o que você precisa fazer é digitar o URL do seu arquivo robots.txt em uma Pesquisa do Google e clicar na pequena seta verde suspensa e clicar em 'cache' (veja a imagem abaixo) isso fornecerá a versão mais recente dessa página nos servidores do Google.
fonte
Você pode solicitar sua remoção usando a ferramenta de remoção de URL do Google .
fonte