Posso invocar o Google para verificar meu robots.txt?

11

Li as respostas nesta pergunta, mas elas ainda deixam minha pergunta em aberto: o Google armazena em cache o robots.txt?

Não encontrei uma maneira nas Ferramentas do Google para webmasters para invocar um novo download do meu robots.txt .

Por algum erro, meu robots.txt foi substituído por:

User-agent: *
Disallow: /

E agora todo o meu conteúdo foi removido dos resultados de pesquisa do Google.

Obviamente, estou interessado em corrigir isso o mais rápido possível. Já substitui o robots.txt , mas não consigo encontrar uma maneira de fazer o Google atualizar a versão em cache.

insira a descrição da imagem aqui

Der Hochstapler
fonte
1
A simples exclusão de todas as suas páginas no robots.txt geralmente não deve ser suficiente para removê-las completamente dos resultados do Google, desde que outros sites ainda os vinculem.
Ilmari Karonen
Hmm, é complicado. Os URLs do ZenCart parecem confundir o bot do rastreador da web robots.txt e, antes que você perceba, você bloqueou os URLs que não deseja que sejam bloqueados. Minha experiência é que você está melhor sem o robots.txt, mas apenas mantendo um site limpo. Perdi muitos lugares de classificação na web devido a este erro de bloqueio de robots.txt de URLs válidos. Como o ZenCart usa URLs dinâmicos, parece confundir o rastreador da Web robots.txt, resultando no bloqueio de URLs que você não espera que sejam bloqueados. Não tenho certeza se ele se relaciona com a desativação de uma categoria em ZenCart e, em seguida, os produtos se deslocam para fora dessa categoria um

Respostas:

10

Você não pode fazê-los baixar novamente o seu robots.txt quando desejar. O Google o rastreará novamente e usará os novos dados sempre que acharem apropriado para o seu site. Eles tendem a rastrear regularmente, para que eu não espere que o arquivo atualizado seja encontrado e que suas páginas sejam rastreadas e indexadas novamente. Lembre-se de que pode levar algum tempo depois que o novo arquivo robots.txt for encontrado antes que suas páginas sejam rastreadas novamente e ainda mais tempo para que elas reapareçam nos resultados de pesquisa do Google.

John Conde
fonte
1
Segundo eles, eles verificam todos os dias, mais ou menos, mas provavelmente verificam com mais frequência os sites ocupados. Consulte webmasters.stackexchange.com/a/32949/17430 .
Studgeek
1

Eu enfrentei o mesmo problema quando iniciei meu novo site www.satyabrata.comem 16 de junho.

Eu tinha um Disallow: /no meu robots.txt , exatamente como Oliver. Também havia uma mensagem de aviso nas Ferramentas do Google para webmasters sobre URLs bloqueados.

O problema foi resolvido ontem, 18 de junho. Fiz o seguinte. Não tenho certeza de qual etapa funcionou.

  1. Saúde -> Buscar como o Google: robots.txt e a página inicial. Em seguida, envie para o índice.
  2. Configurações -> Domínio Preferido: exibe o URL como www.satyabrata.com
  3. Otimização -> Sitemaps: Sitemap XML adicionado.

A mensagem de aviso sobre URLs bloqueados desapareceu agora e um novo robots.txt é mostrado baixado nas Ferramentas do Google para webmasters.

Atualmente, tenho apenas duas páginas indexadas no Google, a home page e o robots.txt . Eu tenho 10 páginas no site. Espero que o resto seja indexado em breve.

Satyabrata Das
fonte
0

Ocorreu um problema em que as imagens foram movidas para um servidor CNAME separado e uma proibição foi colocada na pasta de imagens. O que eu consegui esclarecer foi que o robots.txt recuperado nas Ferramentas do Google para webmasters leu a página da Web como ferramenta do Google. Depois que ele me disse que havia recuperado e lido o robots.txt, enviei-o. Isso quebrou um embargo de três meses na digitalização de imagens, onde o Google relatou que estava lendo o arquivo robots.txt, mas não estava alterando sua aparência para corresponder às regras que foram alteradas para permitir a pasta da imagem. Dentro de uma semana, as imagens estavam sendo indexadas novamente.

Pode valer a pena tentar. Sabe-se que o Google ocasionalmente fica preso e falha ao reler o arquivo.

Fiasco Labs
fonte
Eles releram o arquivo cerca de 6 horas depois que eu postei. Tudo está de volta ao normal agora.
Der Hochstapler
Ufa! De volta aos trilhos então!
Fiasco Labs
Tentei pedir às ferramentas do webmaster para buscar o robots.txt, queixou-se de ter sido negado pelo robots.txt :). Então, aparentemente, esse truque não funcionará se você tiver o robots.txt executando um bloco completo.
precisa
O mesmo aqui ... Pedido de robots.txt negado pelo robots.txt! Hah!
Kasapo 27/08/2012
Whelp, se você colocar negar na raiz, então eu acho que você é do tipo SOL. No meu caso, era uma subpasta que estava sendo recusada, forçando uma releitura do robots.txt através dos mecanismos fornecidos realmente funcionados.
Fiasco Labs
-1

No meu caso, o problema era que eu estava usando um serviço DNS gratuito chamado fear.org.

(meu domínio gratuito terminou em .us.to)

Depois da transição para um TLD, ele começou a funcionar.

Stefan Monov
fonte
Não vejo o que o DNS ou o site gratuito tem a ver com robots.txt ou com o Google para buscá-lo novamente.
Stephen Ostermiller
@ StephenOstermiller: Eu também não vejo, mas o fato é que isso ajudou no meu caso.
Stefan Monov
Ajudou o Google a verificar seu robots.txt?
Stephen Ostermiller
@StephenOstermiller: Sim.
Stefan Monov