Impedir a exibição de sitemaps XML nos resultados de pesquisa do Google

23

Como impedir que meus arquivos XML de sitemap apareçam nos resultados de pesquisa do Google, como este resultado de uma site:consulta de pesquisa:

mapa do site nos resultados da pesquisa

Não entendo por que o Google optou por mostrar os arquivos do mapa do site nos resultados de pesquisa. Esses arquivos não são destinados ao consumo humano.

O Google precisa rastreá-lo para processá-lo, por isso não posso impedi-lo no robots.txt . Só não quero que eles os coloquem nos resultados da pesquisa após processá-los.

Stephen Ostermiller
fonte
1
Hã. Interessante. O único pensamento que tenho é se você tiver um link para ele no seu site ou ele aparecer no seu arquivo de mapa do site. Além disso, não tenho certeza se você se refere a ele no seu arquivo robots.txt se isso pode ser um fator. Eu não pensaria assim, apenas algo a considerar. Forneci meu mapa do site apenas pelo Google WMT e não vi esse problema, pelo menos ainda não. Entendo que não quero que seu sitemap seja público. Eu não quero o meu público. Muitos hackers / scrapers por aí.
Closetnoc 20/05
3
Neste site específico, /sitemap.xmllistei no robots.txt e, em seguida, os links para um conjunto diferente de outros sitemaps como /sitemap-123.xmle /sitemap-124.xml. Regenero os sitemaps todos os dias e os números mudam diariamente. O que está indexado é bastante antigo. Não o vinculo a nenhum lugar do meu site, mas é possível que algum outro site tenha um link para ele em algum lugar.
Stephen Ostermiller
1
Se não for usado, verifique se ele foi excluído e exclua-o no seu arquivo robots.txt e ele será retirado das SERPs rapidamente. Estranhamente, a coisa de remover URL no Google WMT leva uma eternidade (meses para mim) enquanto o robots.txt é bastante rápido.
Closetnoc 20/05
1
Você enviou o sitemap XML para sua conta GWMT?
Oleg
3
O arquivo do sitemap ainda existia até hoje. Eu o removi e agora ele é redirecionado para /sitemap.xml Presumo que este sitemap específico caia do índice. Gostaria de impedir que o Google os mostre também para pesquisar usuários no futuro.
Stephen Ostermiller

Respostas:

18

O Google indexa sitemaps XML (como qualquer arquivo XML). Se o Google estiver ciente de um URL e retornar uma resposta válida, será aprovado nas regras de inclusão do Google e poderá ser indexado. Pessoalmente, só envio o sitemap através do GWT e incluo uma Sitemap:referência no robots.txt, e isso certamente é suficiente para indexá-lo.

O método recomendado para impedir que esses arquivos sejam indexados pelo Google é incluir um X-Robots-Tagcabeçalho de resposta HTTP ao veicular o mapa do site XML. Por exemplo:

X-Robots-Tag: noindex

Assim como incluir uma tag META de robôs em arquivos HTML, o X-Robots-Tagcabeçalho pode ser usado para qualquer tipo de arquivo.

Referência: este documento (de novembro de 2008!) Parece citar nosso próprio John Mueller (Google) no que diz respeito ao uso da X-Robots-Tagresposta ao lidar com sitemaps XML.
Sim, o Google indexará e classificará o seu arquivo XML Sitemap

Para obter mais informações, consulte o guia do desenvolvedor do Google:
Especificações da metatag de robôs e do cabeçalho HTTP da X-Robots-Tag

Sr. White
fonte
Onde devo escrever o X-Robots-Tag: noindexcódigo do cabeçalho? Dentro sitemap.xmlou robots.txt?
Xameeramir
1
@student Como é um cabeçalho de resposta HTTP , ele deve ser definido antes da veiculação desses arquivos (como parte do cabeçalho de resposta HTTP) - não pode ser definido "dentro" deles. Dependendo de como você está servindo esses arquivos, é possível configurá-lo no código do servidor (por exemplo, no PHP header('X-Robots-Tag: noindex',true)) ou, se você estiver usando o Apache, no arquivo .htaccess ou na configuração do servidor. Veja a resposta de Stephen para exemplo de código. Veja também o guia do desenvolvedor do Google vinculado acima.
precisa saber é o seguinte
8

A resposta do Sr.White sobre o uso do X-Robots-Tag parece ser a maneira correta de fazer isso.

Aqui está o código que pode ser usado nos arquivos de configuração .htaccess ou Apache para fazer isso. (Referência: WebmasterWorld - Sitemaps exibidos no SERP - Como evitar isso? )

<Files ~ "sitemap.*\.xml(\.gz)?$">
  Header append X-Robots-Tag "noindex"
</Files>

Sob nginx, a configuração seria a seguinte. (Referência: exemplos de Yoast X-Robots-Tag )

location ~* sitemap.*\.xml(\.gz)?$ {
    add_header X-Robots-Tag "noindex";
}
Stephen Ostermiller
fonte
2

Por que isso Importa?

Se você realmente conseguir encontrar o seu sitemap no SERP, terá maiores problemas.

Em vez disso, focaria mais em obter páginas com conteúdo útil. Dessa forma, você terá muita dificuldade em encontrar seu mapa do site. Não que você se importaria nesse ponto de qualquer maneira.

PS

Praticamente todos mantêm sitemaps no mesmo local. Então, se alguém quisesse descobrir onde você o guarda, eles o farão :)

dasickle
fonte
4
Eu uso o Google para pesquisa no site e me deparei com um mapa do site ao usá-lo. Seria muito confuso para meus usuários se eles clicassem nele.
Stephen Ostermiller
Quantos de seus usuários você acha que usam o Google para pesquisa no site?
dasickle
3
Todos os usuários que digitam termos de pesquisa na caixa de pesquisa na parte superior das minhas páginas.
Stephen Ostermiller
Nesse caso. Você já pensou em usar algo como swiftype.com para a pesquisa no site? Há uma parte superior das outras que você pode usar. Você pode reordenar, remover e adicionar resultados. Você também obter grandes estatísticas e etc.
dasickle
-6

coloque o seguinte no robots.txt

User-agent: *
Disallow: /sitemap.xml

envie seu sitemap por meio das ferramentas do Google para webmasters.

konghou
fonte
1
Você pode esclarecer sua lógica - sua primeira frase parece estar em conflito com a sua última?
MrWhite
5
O Google ainda rastreará um mapa do site bloqueado no robots.txt? Você tem uma referência para apoiar a afirmação?
Stephen Ostermiller
4
Se você não permitir o sitemap.xml, tenho certeza de que ele não será mais rastreado. Não é algo que você gostaria que acontecesse!
Max
2
O Google não rastreará nenhum documento com o robots.txt não permitido. De qualquer forma, normalmente não ... mapas do site incluídos.