Existem 2 maneiras principais de impedir que os mecanismos de pesquisa indexem páginas específicas :
- Um arquivo Robots.txt para o seu domínio.
- A tag Meta Robots em cada página.
Robots.txt deve ser sua primeira parada para padrões de URL que correspondem a vários arquivos. Você pode ver a sintaxe aqui e mais detalhadamente aqui . O arquivo robots.txt deve ser colocado na pasta raiz do seu domínio, ou seja http://www.yourdomain.com/robots.txt
, em , e conteria algo como:
User-agent: *
Disallow: /path/with-trailing-slash/
(A coloração do texto acima é feita pelo software Stackexchange e deve ser ignorada.)
A tag Meta Robots é mais flexível e capaz , mas deve ser inserida em todas as páginas que você deseja afetar.
Novamente, o Google tem uma visão geral de como usar os Meta Robots e como remover as páginas de seu índice pelas Ferramentas do Google para webmasters. A Wikipedia possui uma documentação mais abrangente sobre os meta robôs , incluindo as derivações específicas dos mecanismos de pesquisa.
Se você deseja proibir o Google, o Arquivo da web e outros mecanismos de pesquisa de manter uma cópia da sua página da web, deseje a seguinte tag (mostrada no formato HTML4):
<meta name="robots" content="noarchive">
Para impedir a indexação e manter uma cópia :
<meta name="robots" content="noindex, noarchive">
E para impedir os itens acima , além de usar os links na página para encontrar mais páginas para indexar:
<meta name="robots" content="noindex, nofollow, noarchive">
NB 1: todas as três metatags acima são apenas para os mecanismos de pesquisa - elas não afetam proxies HTTP ou navegadores.
NB 2: se você já possui páginas indexadas e arquivadas e bloqueia as páginas via robots.txt e, ao mesmo tempo, adiciona a metatag às mesmas páginas, o robots.txt impedirá que os mecanismos de pesquisa vejam a metatag atualizada.
Na verdade, existe uma terceira maneira de impedir que o Google e outros mecanismos de pesquisa indexem URLs. É o
X-Robots-Tag
cabeçalho de resposta HTTP . É melhor do que as meta tags, porque funciona para todos os documentos e você pode ter mais de uma tag.fonte
Sim, isso resolverá o problema. Para impedir que o conteúdo apareça nos índices do Google, você pode usar o robots.txt ou a metatag html
A próxima vez que seu site for indexado, isso fará com que seu conteúdo seja excluído do índice do Google.
Você também pode obter o
noarchive
valor - isso bloqueará o cache da sua página. Isto é específico do Google:Você pode usar a 'ferramenta de remoção' nas Ferramentas do Google para webmasters para solicitar uma remoção muito urgente do seu conteúdo. Observe que você deve bloquear a indexação do seu conteúdo primeiro (usando o robots.txt ou a tag meta robots).
Mais informações:
fonte
Se seu objetivo é que essas páginas não sejam vistas pelo público, é melhor colocar uma senha nesse conjunto de páginas. E / ou tem alguma configuração que permite apenas endereços específicos da lista de permissões capazes de acessar o site (isso pode ser feito no nível do servidor, provavelmente através do administrador do host ou do servidor).
Se seu objetivo é que essas páginas existam, apenas não indexadas pelo Google ou por outros mecanismos de pesquisa, como outros já mencionaram, você tem algumas opções, mas acho importante distinguir entre as duas principais funções da Pesquisa Google neste sense: rastreamento e indexação.
Rastreamento x indexação
O Google rastreia seu site, o Google indexa seu site. Os rastreadores encontram páginas do seu site, a indexação está organizando as páginas do seu site. Mais informações sobre isso aqui .
Essa distinção é importante ao tentar bloquear ou remover páginas do "Índice" do Google. Muitas pessoas usam o bloqueio apenas via robots.txt, que é uma diretiva que diz ao Google o que (ou o que não) deve rastrear. Supõe-se frequentemente que, se o Google não rastrear seu site, é improvável que o indexe. No entanto, é extremamente comum ver páginas bloqueadas pelo robots.txt, indexadas no Google.
Diretrizes para o Google e os mecanismos de pesquisa
Esse tipo de "diretivas" são meramente recomendações para o Google em qual parte do seu site rastrear e indexar. Eles não são obrigados a segui-los. Isso é importante saber. Ao longo dos anos, vi muitos desenvolvedores pensarem que podem bloquear o site via robots.txt e, de repente, o site está sendo indexado no Google algumas semanas depois. Se alguém criar um link para o site, ou se um dos rastreadores do Google, de alguma forma, conseguir acessá-lo, ele ainda poderá ser indexado .
Recentemente, com o painel atualizado do GSC (Google Search Console), eles têm esse relatório chamado "Relatório de cobertura do índice". Novos dados estão disponíveis para os webmasters aqui que não estavam diretamente disponíveis antes, detalhes específicos sobre como o Google lida com um determinado conjunto de páginas. Eu já vi e ouvi muitos sites recebendo "Avisos", rotulados como "Indexados, mas bloqueados pelo Robots.txt".
A documentação mais recente do Google menciona que, se você deseja que as páginas saiam do índice, adicione tags noindex nofollow.
Ferramenta Remover URLs
Apenas para aproveitar o que alguns outros mencionaram sobre a "Ferramenta Remover URL" ...
Se as páginas já estiverem indexadas e for urgente divulgá-las, a "Ferramenta de remoção de URLs" do Google permitirá que você "bloqueie temporariamente" as páginas dos resultados de pesquisa. A solicitação dura 90 dias, mas usei-a para remover as páginas mais rapidamente do Google do que usar noindex, nofollow, como uma camada extra.
Usando a "Ferramenta Remover URLs", o Google ainda rastreará a página e possivelmente a armazenará em cache, mas enquanto estiver usando esse recurso, você poderá adicionar as tags noindex nofollow, para vê-las e até os 90 dias. esperamos que saiba que não indexará mais sua página.
IMPORTANTE: O uso das tags robots.txt e noindex nofollow é um sinal conflitante para o Google.
O motivo é que, se você instruir o Google a não rastrear uma página e não tiver o nindex noindex nessa página, ele poderá não rastrear para ver a tag noindex nofollow. Em seguida, ele pode ser indexado por outro método (seja um link ou outros enfeites). Os detalhes sobre por que isso acontece são bastante vagos, mas eu já vi isso acontecer.
Em resumo, na minha opinião, a melhor maneira de impedir a indexação de URLs específicos é adicionar uma tag noindex nofollow a essas páginas. Com isso, verifique se você não está bloqueando esses URLs também com o robots.txt, pois isso pode impedir o Google de ver corretamente essas tags. Você pode aproveitar a ferramenta Remover URLs do Google para ocultá-los temporariamente dos resultados da pesquisa enquanto o Google processa seu noindex nofollow.
fonte