Eu tenho algumas páginas no meu site das quais quero manter os mecanismos de pesquisa afastados, por isso os desautorizei no meu robots.txt
arquivo assim:
User-Agent: *
Disallow: /email
No entanto, notei recentemente que o Google ainda retorna links para essas páginas nos resultados de pesquisa. Por que isso acontece e como posso impedi-lo?
Fundo:
Há vários anos, criei um site simples para um clube em que um parente estava envolvido. Eles queriam ter links de e-mail em suas páginas, para tentar impedir que esses endereços acabassem com muitos listas de spam, em vez de usar mailto:
links diretos , fiz com que esses links apontassem para um simples script de armadilha de redirecionador / coletor de endereços em execução no meu próprio site. Esse script retornaria um redirecionamento 301 para o mailto:
URL real ou, se ele detectasse um padrão de acesso suspeito, uma página contendo muitos endereços de email falsos aleatórios e links para mais dessas páginas. Para manter os robôs de pesquisa legítimos longe da interceptação, configurei a robots.txt
regra mostrada acima, proibindo todo o espaço dos links de redirecionador legítimo e das páginas de interceptação.
Recentemente, no entanto, uma das pessoas do clube pesquisou o nome do Google e ficou bastante surpresa quando um dos resultados da primeira página foi um link para o script de redirecionador, com um título que consistia no endereço de e-mail seguido pelo meu nome. Obviamente, eles imediatamente me enviaram um e-mail e queriam saber como obter seu endereço fora do índice do Google. Fiquei bastante surpreso também, pois não fazia ideia de que o Google indexaria esses URLs, aparentemente violando minha robots.txt
regra.
Consegui enviar uma solicitação de remoção ao Google e parece ter funcionado, mas eu gostaria de saber por que e como o Google está contornando robots.txt
isso e como garantir que nenhuma das páginas não permitidas apareça nas suas Procurar Resultados.
Ps. Na verdade, descobri uma possível explicação e solução, que postarei abaixo, enquanto preparava essa pergunta, mas pensei em perguntar de qualquer maneira , caso outra pessoa possa ter o mesmo problema. Por favor, sinta-se livre para postar suas próprias respostas. Eu também estaria interessado em saber se outros mecanismos de pesquisa também fazem isso e se as mesmas soluções funcionam para eles também.
fonte
robots.txt
arquivo é como um pequeno sinal de "Não ultrapasse" ao lado da entrada de alguém. Não é mágica, e (a menos que um visitante a procure explicitamente) eles podem passear pela sua propriedade sem serem afetados pela existência dela. Existem equivalentes na Internet de holofotes e cercas de arame farpado, mas se é isso que você quer,robots.txt
não é.Respostas:
Parece que o Google deliberadamente inclui URLs não permitidos em
robots.txt
seu índice se houver links para esses URLs de outras páginas que eles rastrearam. Para citar as páginas de ajuda das Ferramentas do Google para webmasters :Aparentemente, o Google interpreta uma
Disallow
diretivarobots.txt
como uma proibição de rastrear a página, não de indexá- la. Suponho que seja tecnicamente uma interpretação válida, mesmo que chegue a regras que me advogam.Em este artigo entrevista , Matt Cutts do Google dá um pouco mais fundo e não fornecer uma explicação razoável-soando por que eles fazem isso:
A solução recomendada nessas duas páginas é adicionar uma
noindex
metatag às páginas que você não deseja indexar. (OX-Robots-Tag
cabeçalho HTTP também deve funcionar para páginas que não são HTML. Porém, não tenho certeza se funciona em redirecionamentos.) Paradoxalmente, isso significa que você precisa permitir que o Googlebot rastreie essas páginas (removendo-asrobots.txt
completamente ou adicionando um conjunto de regras separado e mais permissivo para o Googlebot), pois, caso contrário, não poderá ver a metatag em primeiro lugar.Editei meu script de redirecionamento / trap spider para enviar a metatag e o
X-Robots-Tag
cabeçalho com o valornoindex,nofollow
e permiti ao Googlebot rastrear o URL do script no meurobots.txt
. Vamos ver se funciona quando o Google indexar novamente meu site.fonte
É verdade que, embora isso deva impedir o Google (e os bons bots) de rastrear essas páginas e ler seu conteúdo, eles ainda podem mostrar um link somente de URL nos SERPs, se estiverem vinculados, no formulário:
Como você pode ver, não há título ou descrição, é literalmente apenas o URL. Naturalmente, esses tipos de resultados geralmente são omitidos nos SERPs, a menos que você os procure explicitamente.
E, como você mencionou na sua resposta, se você não deseja que o URL apareça nos SERPs, é necessário permitir robôs, mas inclua uma metatag noindex.
fonte