Como impedir que determinados URLs sejam indexados

8

Quando digito site:example.com(usando meu domínio obviamente), recebo vários erros de link na lista. Normalmente, eles têm a forma:/some/fixed/path/admin/unblockUser/11

Estou pensando em adicionar a seguinte linha ao meu robots.txtarquivo:

Disallow: /some/fixed/path/admin/*
Simon Hayter
fonte

Respostas:

18

Existem 2 maneiras principais de impedir que os mecanismos de pesquisa indexem páginas específicas :

  1. Um arquivo Robots.txt para o seu domínio.
  2. A tag Meta Robots em cada página.

Robots.txt deve ser sua primeira parada para padrões de URL que correspondem a vários arquivos. Você pode ver a sintaxe aqui e mais detalhadamente aqui . O arquivo robots.txt deve ser colocado na pasta raiz do seu domínio, ou seja http://www.yourdomain.com/robots.txt, em , e conteria algo como:

User-agent: *
Disallow: /path/with-trailing-slash/

(A coloração do texto acima é feita pelo software Stackexchange e deve ser ignorada.)

A tag Meta Robots é mais flexível e capaz , mas deve ser inserida em todas as páginas que você deseja afetar.

Novamente, o Google tem uma visão geral de como usar os Meta Robots e como remover as páginas de seu índice pelas Ferramentas do Google para webmasters. A Wikipedia possui uma documentação mais abrangente sobre os meta robôs , incluindo as derivações específicas dos mecanismos de pesquisa.

Se você deseja proibir o Google, o Arquivo da web e outros mecanismos de pesquisa de manter uma cópia da sua página da web, deseje a seguinte tag (mostrada no formato HTML4):

<meta name="robots" content="noarchive">

Para impedir a indexação e manter uma cópia :

<meta name="robots" content="noindex, noarchive">

E para impedir os itens acima , além de usar os links na página para encontrar mais páginas para indexar:

<meta name="robots" content="noindex, nofollow, noarchive">

NB 1: todas as três metatags acima são apenas para os mecanismos de pesquisa - elas não afetam proxies HTTP ou navegadores.

NB 2: se você já possui páginas indexadas e arquivadas e bloqueia as páginas via robots.txt e, ao mesmo tempo, adiciona a metatag às mesmas páginas, o robots.txt impedirá que os mecanismos de pesquisa vejam a metatag atualizada.

Jesper M
fonte
11
Votado? Por que diabos isso foi prejudicado? Deixe um comentário se você fizer um voto negativo para que a resposta possa ser melhorada.
precisa
@Jesper Mortensen Sua resposta inicial não abordou a questão do cache. Sua edição corrigiu isso e melhorou muito as informações noindex. +1 agora ;-)
mawtex
11
Um aspecto a ter em mente é que uma diretiva de proibição robots.txt não impede a indexação de um URL nem resulta na remoção desse URL do índice. Os mecanismos de pesquisa podem e indexarão os URLs sem os rastrear (se eles não forem permitidos). Portanto, se a interrupção da indexação de URLs é crítica (e não apenas a interrupção da indexação do conteúdo), você deve usar a metatag robots ou o x -robots-tag cabeçalho HTTP e verifique se os URLs não são permitidos de rastrear.
John Mueller
11
Além disso, embora não seja necessariamente incorreta, uma metatag de robôs com "noindex, noarchive" é equivalente a "noindex" (quando um URL não é indexado, também não é arquivado / armazenado em cache).
John Mueller
11
Finalmente (desculpe por adicionar tantos comentários :-)), neste caso em particular (páginas de administração), apenas garantiria que os URLs retornassem 403 quando não estiverem conectados. Isso também impede que os mecanismos de pesquisa o indexem e é teoricamente mais claro do que ter uma página retornando 200 + usando uma metatag de robôs noindex. O resultado final é o mesmo nos resultados da pesquisa, mas o uso do código de resultado HTTP adequado pode ajudá-lo a reconhecer acessos de administrador não autorizados em seus logs com mais facilidade.
John Mueller
5

Na verdade, existe uma terceira maneira de impedir que o Google e outros mecanismos de pesquisa indexem URLs. É o X-Robots-Tagcabeçalho de resposta HTTP . É melhor do que as meta tags, porque funciona para todos os documentos e você pode ter mais de uma tag.

As tags REP META oferecem controle útil sobre como cada página da web em seu site é indexada. Mas isso só funciona para páginas HTML. Como você pode controlar o acesso a outros tipos de documentos, como arquivos Adobe PDF, arquivos de vídeo e áudio e outros tipos? Bem, agora a mesma flexibilidade para especificar tags por URL está disponível para todos os outros tipos de arquivos.

Estendemos nosso suporte às tags META para que agora possam ser associadas a qualquer arquivo. Basta adicionar qualquer tag META suportada a uma nova diretiva X-Robots-Tag no cabeçalho HTTP usado para servir o arquivo. Aqui estão alguns exemplos ilustrativos: Não exiba um link ou snippet de cache para este item nos resultados da pesquisa do Google: X-Robots-Tag: noarchive, nosnippet Não inclua este documento nos resultados de pesquisa do Google: X-Robots-Tag : noindex Diga-nos que um documento estará indisponível após 7 de julho de 2007, 16:30 GMT: X-Robots-Tag: indisponível_after: 7 de julho de 2007 16:30:00 GMT

Você pode combinar várias diretivas no mesmo documento. Por exemplo: Não mostre um link em cache para este documento e remova-o do índice após 23 de julho de 2007, 15:00 PST: X-Robots-Tag: noarchive X-Robots-Tag: indisponível_after: 23 jul 2007 15:00:00 PST

John Conde
fonte
O link 'X-Robots_tag header' está quebrado.
Mawtex
Obrigado pela atenção. O Chrome parece ter problemas com a barra de ferramentas de formatação e adicionou texto extra ao link.
John Conde
1

Sim, isso resolverá o problema. Para impedir que o conteúdo apareça nos índices do Google, você pode usar o robots.txt ou a metatag html

<meta name="robots" content="noindex, nofollow" />

A próxima vez que seu site for indexado, isso fará com que seu conteúdo seja excluído do índice do Google.

Você também pode obter o noarchivevalor - isso bloqueará o cache da sua página. Isto é específico do Google:

<meta name="robots" content="noarchive" />

Você pode usar a 'ferramenta de remoção' nas Ferramentas do Google para webmasters para solicitar uma remoção muito urgente do seu conteúdo. Observe que você deve bloquear a indexação do seu conteúdo primeiro (usando o robots.txt ou a tag meta robots).

Mais informações:

mawtex
fonte
1

Se seu objetivo é que essas páginas não sejam vistas pelo público, é melhor colocar uma senha nesse conjunto de páginas. E / ou tem alguma configuração que permite apenas endereços específicos da lista de permissões capazes de acessar o site (isso pode ser feito no nível do servidor, provavelmente através do administrador do host ou do servidor).

Se seu objetivo é que essas páginas existam, apenas não indexadas pelo Google ou por outros mecanismos de pesquisa, como outros já mencionaram, você tem algumas opções, mas acho importante distinguir entre as duas principais funções da Pesquisa Google neste sense: rastreamento e indexação.

Rastreamento x indexação

O Google rastreia seu site, o Google indexa seu site. Os rastreadores encontram páginas do seu site, a indexação está organizando as páginas do seu site. Mais informações sobre isso aqui .

Essa distinção é importante ao tentar bloquear ou remover páginas do "Índice" do Google. Muitas pessoas usam o bloqueio apenas via robots.txt, que é uma diretiva que diz ao Google o que (ou o que não) deve rastrear. Supõe-se frequentemente que, se o Google não rastrear seu site, é improvável que o indexe. No entanto, é extremamente comum ver páginas bloqueadas pelo robots.txt, indexadas no Google.


Diretrizes para o Google e os mecanismos de pesquisa

Esse tipo de "diretivas" são meramente recomendações para o Google em qual parte do seu site rastrear e indexar. Eles não são obrigados a segui-los. Isso é importante saber. Ao longo dos anos, vi muitos desenvolvedores pensarem que podem bloquear o site via robots.txt e, de repente, o site está sendo indexado no Google algumas semanas depois. Se alguém criar um link para o site, ou se um dos rastreadores do Google, de alguma forma, conseguir acessá-lo, ele ainda poderá ser indexado .

Recentemente, com o painel atualizado do GSC (Google Search Console), eles têm esse relatório chamado "Relatório de cobertura do índice". Novos dados estão disponíveis para os webmasters aqui que não estavam diretamente disponíveis antes, detalhes específicos sobre como o Google lida com um determinado conjunto de páginas. Eu já vi e ouvi muitos sites recebendo "Avisos", rotulados como "Indexados, mas bloqueados pelo Robots.txt".

A documentação mais recente do Google menciona que, se você deseja que as páginas saiam do índice, adicione tags noindex nofollow.


Ferramenta Remover URLs

Apenas para aproveitar o que alguns outros mencionaram sobre a "Ferramenta Remover URL" ...

Se as páginas já estiverem indexadas e for urgente divulgá-las, a "Ferramenta de remoção de URLs" do Google permitirá que você "bloqueie temporariamente" as páginas dos resultados de pesquisa. A solicitação dura 90 dias, mas usei-a para remover as páginas mais rapidamente do Google do que usar noindex, nofollow, como uma camada extra.

Usando a "Ferramenta Remover URLs", o Google ainda rastreará a página e possivelmente a armazenará em cache, mas enquanto estiver usando esse recurso, você poderá adicionar as tags noindex nofollow, para vê-las e até os 90 dias. esperamos que saiba que não indexará mais sua página.


IMPORTANTE: O uso das tags robots.txt e noindex nofollow é um sinal conflitante para o Google.

O motivo é que, se você instruir o Google a não rastrear uma página e não tiver o nindex noindex nessa página, ele poderá não rastrear para ver a tag noindex nofollow. Em seguida, ele pode ser indexado por outro método (seja um link ou outros enfeites). Os detalhes sobre por que isso acontece são bastante vagos, mas eu já vi isso acontecer.


Em resumo, na minha opinião, a melhor maneira de impedir a indexação de URLs específicos é adicionar uma tag noindex nofollow a essas páginas. Com isso, verifique se você não está bloqueando esses URLs também com o robots.txt, pois isso pode impedir o Google de ver corretamente essas tags. Você pode aproveitar a ferramenta Remover URLs do Google para ocultá-los temporariamente dos resultados da pesquisa enquanto o Google processa seu noindex nofollow.

acordei zumbi
fonte