Este é o meu robots.txt :
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Sitemap: http://www.example.org/sitemap.xml.gz
Mas as Ferramentas do Google para webmasters me dizem que os robôs estão bloqueando o acesso ao mapa do site:
Encontramos um erro ao tentar acessar seu Sitemap. Verifique se o seu Sitemap segue nossas diretrizes e pode ser acessado no local que você forneceu e, em seguida, reenvie: URL restrito pelo robots.txt .
Eu li que as Ferramentas do Google para webmasters armazenam em cache o robots.txt , mas o arquivo foi atualizado há mais de 36 horas.
Atualizar:
Atingir o mapa do site TEST não faz com que o Google busque um novo mapa do site. Somente o SUBMIT sitemap foi capaz de fazer isso. (BTW, não vejo qual é o sentido do 'sitemap de teste', a menos que você cole o mapa do site atual nele - ele não obtém uma cópia nova do mapa do site no endereço solicitado para você inserir antes do teste - mas é uma pergunta para outro dia.)
Depois de enviar (em vez de testar) um novo mapa do site, a situação mudou. Agora recebo "URL bloqueado pelo robots.txt . O mapa do site contém URLs bloqueados pelo robots.txt ". para 44 URLs. Existem exatamente 44 URLs no mapa do site. Isso significa que o Google está usando o novo mapa do site, mas ainda segue a regra dos robôs antigos (que mantinha tudo fora dos limites). Nenhum dos 44 URLs está /wp-admin/
ou /wp-includes/
(o que é praticamente impossível, pois o robots.txt é baseado no mosca pelo mesmo plug-in que cria o mapa do site).
Atualização 2:
Piora: em uma página de resultados da Pesquisa Google, a descrição da página inicial diz: "Uma descrição para este resultado não está disponível devido ao robots.txt deste site - saiba mais". Todas as outras páginas têm descrições detalhadas. Não há robots.txt OU robôs bloqueando a indexação da página inicial.
Estou preso.
Respostas:
Parece que o Google provavelmente ainda não atualizou o cache do seu arquivo robots.txt. Seu arquivo robots.txt atual (acima) não parece estar bloqueando o URL do seu sitemap.
Não há necessidade de adivinhar. Nas Ferramentas do Google para webmasters (GWT), em "Saúde"> "URLs bloqueados", você pode ver quando o seu robots.txt foi baixado pela última vez e se foi bem-sucedido. Ele também informará quantos URLs foram bloqueados pelo arquivo robots.txt.
Conforme mencionado nos meus comentários, o GWT possui uma ferramenta de verificação do robots.txt ("Saúde"> "URLs bloqueados"). Assim, você pode testar imediatamente as alterações no seu robots.txt (sem alterar o arquivo real). Especifique o arquivo robots.txt na área de texto superior e os URLs que você deseja testar na área de texto inferior e ele informará se eles serão bloqueados ou não.
Armazenamento em cache do robots.txt
Fonte: Google Developers - Robots.txt Especificações
fonte
Eu tive o mesmo problema com o meu site, porque durante a instalação do WP eu seleciono não acompanhar com o mecanismo de pesquisa ou a mesma opção.
Para resolver esse problema:
www.example.com/robots.txt
com esta opção -> remover do cache para alterar o conteúdo ou ...fonte