As Ferramentas do Google para webmasters me dizem que os robôs estão bloqueando o acesso ao mapa do site

11

Este é o meu robots.txt :

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Sitemap: http://www.example.org/sitemap.xml.gz

Mas as Ferramentas do Google para webmasters me dizem que os robôs estão bloqueando o acesso ao mapa do site:

Encontramos um erro ao tentar acessar seu Sitemap. Verifique se o seu Sitemap segue nossas diretrizes e pode ser acessado no local que você forneceu e, em seguida, reenvie: URL restrito pelo robots.txt .

Eu li que as Ferramentas do Google para webmasters armazenam em cache o robots.txt , mas o arquivo foi atualizado há mais de 36 horas.

Atualizar:

Atingir o mapa do site TEST não faz com que o Google busque um novo mapa do site. Somente o SUBMIT sitemap foi capaz de fazer isso. (BTW, não vejo qual é o sentido do 'sitemap de teste', a menos que você cole o mapa do site atual nele - ele não obtém uma cópia nova do mapa do site no endereço solicitado para você inserir antes do teste - mas é uma pergunta para outro dia.)

Depois de enviar (em vez de testar) um novo mapa do site, a situação mudou. Agora recebo "URL bloqueado pelo robots.txt . O mapa do site contém URLs bloqueados pelo robots.txt ". para 44 URLs. Existem exatamente 44 URLs no mapa do site. Isso significa que o Google está usando o novo mapa do site, mas ainda segue a regra dos robôs antigos (que mantinha tudo fora dos limites). Nenhum dos 44 URLs está /wp-admin/ou /wp-includes/(o que é praticamente impossível, pois o robots.txt é baseado no mosca pelo mesmo plug-in que cria o mapa do site).

Atualização 2:

Piora: em uma página de resultados da Pesquisa Google, a descrição da página inicial diz: "Uma descrição para este resultado não está disponível devido ao robots.txt deste site - saiba mais". Todas as outras páginas têm descrições detalhadas. Não há robots.txt OU robôs bloqueando a indexação da página inicial.

Estou preso.

Gaia
fonte
Nas Ferramentas do Google para webmasters> Saúde> URLs bloqueados, você pode testar imediatamente se o seu robots.txt bloqueia o URL do seu sitemap (ou qualquer outro URL que você queira testar). Não parece que seu robots.txt atual deve bloquear seu mapa do site, mas você diz que isso foi atualizado. Uma versão anterior do seu arquivo robots.txt bloqueou isso?
precisa saber é o seguinte
1
Sim, a versão anterior bloqueou. Eu acho que o Google apenas não atualizou seu cache ...
Gaia
Eu tenho exatamente o mesmo problema. Meu cache robots.txt é de 23 de abril deste ano, hoje é 25 de abril e o cache ainda está antigo. Não tenho tempo para esperar, preciso do googleboot para indexar meu site agora (é site de negócios), mas parece que não posso fazer nada, apenas espere sem saber quanto tempo. É tão frustrante!

Respostas:

8

Parece que o Google provavelmente ainda não atualizou o cache do seu arquivo robots.txt. Seu arquivo robots.txt atual (acima) não parece estar bloqueando o URL do seu sitemap.

Eu acho que o Google apenas não atualizou seu cache.

Não há necessidade de adivinhar. Nas Ferramentas do Google para webmasters (GWT), em "Saúde"> "URLs bloqueados", você pode ver quando o seu robots.txt foi baixado pela última vez e se foi bem-sucedido. Ele também informará quantos URLs foram bloqueados pelo arquivo robots.txt.

Referência do robots.txt nas Ferramentas do Google para webmasters

Conforme mencionado nos meus comentários, o GWT possui uma ferramenta de verificação do robots.txt ("Saúde"> "URLs bloqueados"). Assim, você pode testar imediatamente as alterações no seu robots.txt (sem alterar o arquivo real). Especifique o arquivo robots.txt na área de texto superior e os URLs que você deseja testar na área de texto inferior e ele informará se eles serão bloqueados ou não.


Armazenamento em cache do robots.txt

Uma solicitação robots.txt geralmente é armazenada em cache por até um dia, mas pode ser armazenada em cache por mais tempo em situações em que a atualização da versão em cache não é possível (por exemplo, devido a tempos limite ou erros 5xx). A resposta em cache pode ser compartilhada por diferentes rastreadores. O Google pode aumentar ou diminuir a vida útil do cache com base nos cabeçalhos HTTP de controle de cache com idade máxima.

Fonte: Google Developers - Robots.txt Especificações

Sr. White
fonte
Ainda poderia ser o caso 24 horas depois?
Gaia
Qual é a data de "Download", conforme relatado nas Ferramentas do Google para webmasters? Isso lhe dirá se ainda é o caso . Conforme mostrado na captura de tela acima (de um dos meus sites), o arquivo robots.txt foi baixado pela última vez em "3 de setembro de 2012" (3 dias atrás). Mas, no meu caso, não há necessidade de baixar o arquivo novamente, pois nada mudou (o cabeçalho Última modificação deve ser o mesmo). A frequência com que o Google busca seu arquivo robots.txt dependerá dos cabeçalhos de expiração e última modificação, conforme definido pelo seu servidor.
precisa saber é o seguinte
Baixado 22 horas atrás, e expira o cabeçalho diz +24 hrs. Vou tentar novamente dentro de algumas horas, deve ser resolvido!
Gaia
Isso não aconteceu. Google está usando o novo mapa do site, mas ele ainda está indo pela regra antiga robots.txt (que manteve tudo fora dos limites)
Gaia
"Isso não funcionou" - o Google ainda não atualizou o cache do seu arquivo robots.txt? Embora você diga que mudou o arquivo há mais de 36 horas e foi relatado como baixado há 22 horas ?! O que você vê quando clica no link do seu arquivo robots.txt?
precisa saber é o seguinte
2

Eu tive o mesmo problema com o meu site, porque durante a instalação do WP eu seleciono não acompanhar com o mecanismo de pesquisa ou a mesma opção.

Para resolver esse problema:

  1. acesse os rastreamentos das Ferramentas do Google para webmasters remova o URL e envie-o www.example.com/robots.txtcom esta opção -> remover do cache para alterar o conteúdo ou ...
  2. espere um minuto
  3. reenvie o URL do seu sitemap
  4. terminar
Mohammad
fonte