O Google Preview obedece ao Robots.txt?

11

Porque com certeza parece. Para meus sites, proibimos o diretório de imagens e as visualizações são todas imagens ausentes, o que faz com que o site pareça instável.

É esse o caso e existe uma maneira de permitir que apenas o bot de visualização acesse as imagens usando o robots.txt?

EDIT: Parece que as visualizações são geradas pelo Google Bot normal e por um bot on-the-fly Google Web Preview, conforme mencionado (brevemente) no Blog da Central do webmaster .

Usando um site: search e meu software de monitoramento, eu pude ver quando o bot atingiu meu site e quando isso aconteceu, as imagens apareceram muito bem na visualização. Portanto, meu palpite é que o rastreador normal ignora as imagens por robots.txt, mas o rastreador de visualização obtém as imagens de qualquer maneira.

Essa implementação parece meio complicada porque minhas opções parecem ser:

  1. permitir que o google bot rastreie minhas imagens (o que não quero fazer)
  2. use a tag nosnippet que bloqueia a visualização, mas TAMBÉM snippets (o que eu não quero fazer)
  3. Deixe aparecer as visualizações precárias que podem afetar adversamente os cliques
plntxt
fonte
Se for apenas uma questão de não ter as imagens indexadas, você poderá permitir o rastreamento, mas veicular as imagens com um cabeçalho HTTP x-robots-tag com "noindex".
John Mueller
@ John Mueller Parece que é a resposta. Por que não publicá-lo na seção de respostas?
plntxt

Respostas:

3

Eu acho que John Mueller estava certo nos comentários.

Se for apenas uma questão de não ter as imagens indexadas, você poderá permitir o rastreamento, mas veicular as imagens com um cabeçalho HTTP x-robots-tag com "noindex"

Eu não sabia que você poderia permitir que o Google indexasse conteúdo sem indexá-lo. Eu coloquei sua técnica no lugar e estou apenas esperando para ser rastreado para ver se funcionou.

Aceitarei isso como resposta em alguns dias, a menos que John queira adicionar seus comentários à seção de respostas para que ele possa ganhar o representante.

plntxt
fonte
Desculpe pelo comentário-resposta :). Uma coisa a ter em mente é que esse processo não é realmente tão rápido no momento. A alteração do status de indexação das imagens geralmente é mais lenta que a pesquisa na Web, e a atualização de imagens de visualização também pode demorar muito mais do que a atualização do conteúdo normal de pesquisa na Web (página em cache, título, snippet). Na prática, imagino que isso seja algo que levará cerca de semanas para que você veja quaisquer mudanças - então seja paciente :).
John Mueller
Paciência é a chave. Várias semanas depois da mudança, algumas imagens agora são visíveis, enquanto ainda faltam. Mas esta parece ter sido a solução para o meu problema.
plntxt
2

Como a maior parte da visualização é feita pelo rastreador de bots do Google, o bloqueio de parte de seu site afetará a visualização ...

Por que você não deseja permitir que o bot do Google rastreie suas imagens?

Pascal Qyy
fonte
2
Gastamos tempo e dinheiro consideráveis ​​investindo em fotografia de produtos e preferimos manter nossas imagens fora da pesquisa de imagens, pois as pessoas que usam a pesquisa de imagens geralmente procuram uma imagem e não desejam comprar um produto. Se nossas imagens estivessem no índice, seria mais fácil para os concorrentes roubá-las.
Plntxt #
1
Você pode tentar colocar marcas d'água nas suas fotos e / ou esteganografia com direitos autorais dentro e / ou exibir filtros por referência ...
Pascal Qyy
1
@G. Qyy Ou eu poderia pagar um número infinito de macacos para varrer a web em busca de imagens protegidas por direitos autorais.
plntxt
@ Jim: Ou você pode manter preciosamente você imagens em papéis, e nunca, nunca colocá-los na internet ... ^^
Pascal Qyy
1
Bom ponto - nada pode proteger completamente suas fotos, mas eu realmente prefiro não tê-las no índice do Google. Eu não sou fã de marcas d'água, e a maneira mais econômica de reduzir nossas imagens em outros lugares é mantê-las fora do índice.
plntxt
2

A seguir, é apresentada uma solução técnica que pode ou não ser aplicada simplesmente ao seu site.

É possível (até provável) que o Google tenha uma maneira de fazer isso com apenas algumas dicas em metadados ou robots.txt, mas até então ...


Passo 1.

Crie um serviço / servlet de redirecionamento para imagens da primeira página.

Ou seja, um URL como

/frontpageimages/[image name]

que um servidor redireciona para

/images/[image name]

Passo 2.

Reescreva todos os links de imagem da página inicial (e somente a página inicial) para passar pelo serviço de redirecionamento da etapa 1, em vez de vincular diretamente à imagem.

Etapa 3.

Verifique se o robots.txt permite que o googlebot rastreie /frontpageimages/


Isso deve garantir que o Google possa rastrear as imagens que encontrar na sua página inicial, deixando as imagens em outras páginas.

Embora o serviço de redirecionamento possa (em teoria) ser usado para rastrear todas as suas imagens sem violar tecnicamente o seu robots.txt, não é algo que robôs bem comportados (como o googlebot) farão. E robôs mal comportados não vão se preocupar com o robots.txt.

Kris
fonte
Quem quer apenas a primeira página mostrando uma visualização? Eu sei que quero que todas as páginas mostrem uma boa visualização. Se você fizer isso para todas as páginas, estará basicamente negando o propósito de bloquear as imagens.
John Conde
@ John Você está certo. Nesse caso, você deseja que o Google o indexe ou não.
Kris