Robots.txt vs Sitemap - Quem ganha em um conflito

8

Se eu bloquear o diretório / foo no robots.txt, mas meu mapa do site xml contiver URLs com / foo, os URLs no mapa do site serão escolhidos pelo Google e outros mecanismos de pesquisa? Em outras palavras, o mapa do site supera o robots.txt? Acho que sim, mas não tenho certeza.

Nathan
fonte

Respostas:

12

Nenhum mecanismo de pesquisa compatível com o Protocolo de exclusão de robôs pode rastrear qualquer URL não permitido no robots.txt, independentemente de onde ele possa estar listado.

No entanto, o Google não precisa necessariamente rastrear seus URLs para indexá-los. Se eles acreditarem que têm evidências suficientes de que realmente existe uma página nesse URL (e é provável que um sitemap seja listado como tal evidência), eles podem simplesmente decidir adicionar o URL ao índice sem nenhum conteúdo. Para citar as páginas de ajuda das Ferramentas para webmasters do Google :

"Embora o Google não rastreie ou indexe o conteúdo de páginas bloqueadas pelo robots.txt, ainda podemos indexar os URLs se os encontrarmos em outras páginas da Web. Como resultado, o URL da página e, potencialmente, outros informações publicamente disponíveis, como texto âncora em links para o site ou o título do Open Directory Project (www.dmoz.org), podem aparecer nos resultados de pesquisa do Google ".

Essas páginas podem aparecer como resultados de pesquisa, por exemplo, para palavras incluídas no próprio URL ou para palavras usadas em links que apontam para a página.

Assim, se você quer lista de uma página em um mapa do site e proibi-la em robots.txt, é provável que o Google vontade indexar o URL dessa página - mas não seu conteúdo.

Ilmari Karonen
fonte
Então isso daria sua resposta Sim, em vez de Não, não? :) Porque ele pega os URLs, apesar do diretório ser bloqueado no robots.txt, e você parece concordar com isso.
Henrik Erlandsson
3

Robots.txt define quais robôs em conformidade têm permissão ou não para solicitar. Mesmo que um link em particular esteja presente em um mapa do site, um bot não poderá solicitá-lo se o robots.txt não o permitir.

Lembre-se de que os sitemaps não são necessários e, mesmo que um seja fornecido, os rastreadores podem ignorar os URLs e os que não existem. Se pode ver isso nas Ferramentas do Google para webmasters, que mostram que nem todos os URLs em um mapa do site são rastreados e se alguns URLs são roubados .

Itai
fonte
3

A resposta do Itai está correta, então nada muito importante para adicionar a isso, mas em resposta à sua pergunta específica ...

Um sitemap não pode triunfar sobre um robots.txt, mas não fornece instruções / diretrizes para rastreadores em um site. Eles nem são comparáveis. Se você instruiu os robôs a não visitar / seguir /foo, os bots que estão obedecendo às diretrizes dos robôs simplesmente não visitarão esse diretório, independentemente do caminho que eles seguiram para chegar lá (mapa do site ou outros).

zigojacko
fonte
Erm ... Isso é o que o Google diz na documentação de como eles lidam com o rastreamento. [absoluteURL] aponta para um Sitemap, arquivo de Índice de Sitemap ou URL equivalente. O URL não precisa estar no mesmo host que o arquivo robots.txt. Podem existir várias entradas de sitemap. Como registros de não membros do grupo, eles não estão vinculados a nenhum agente de usuário específico e podem ser seguidos por todos os rastreadores, desde que não sejam proibidos .
Zigojacko 28/03
3
Quando o Google pode processar adequadamente um arquivo robots.txt, um URL mencionado em um arquivo de Sitemap nunca supera uma diretiva de proibição válida no arquivo robots.txt. Um URL proibido de rastrear não deve ser rastreado pelo Googlebot.
John Mueller
0

No webmaster do Google: ele mostra um erro no mapa do site XML que "Você colocou um link impedido de rastrear no seu arquivo robots.txt. O Google prefere o arquivo robots.txt ao invés do sitemap.

Asif Faridi
fonte