Como impedir que meus arquivos XML de sitemap apareçam nos resultados de pesquisa do Google, como este resultado de uma site:
consulta de pesquisa:
Não entendo por que o Google optou por mostrar os arquivos do mapa do site nos resultados de pesquisa. Esses arquivos não são destinados ao consumo humano.
O Google precisa rastreá-lo para processá-lo, por isso não posso impedi-lo no robots.txt . Só não quero que eles os coloquem nos resultados da pesquisa após processá-los.
google
sitemap
search-engine-indexing
googlebot
xml-sitemap
Stephen Ostermiller
fonte
fonte
/sitemap.xml
listei no robots.txt e, em seguida, os links para um conjunto diferente de outros sitemaps como/sitemap-123.xml
e/sitemap-124.xml
. Regenero os sitemaps todos os dias e os números mudam diariamente. O que está indexado é bastante antigo. Não o vinculo a nenhum lugar do meu site, mas é possível que algum outro site tenha um link para ele em algum lugar./sitemap.xml
Presumo que este sitemap específico caia do índice. Gostaria de impedir que o Google os mostre também para pesquisar usuários no futuro.Respostas:
O Google indexa sitemaps XML (como qualquer arquivo XML). Se o Google estiver ciente de um URL e retornar uma resposta válida, será aprovado nas regras de inclusão do Google e poderá ser indexado. Pessoalmente, só envio o sitemap através do GWT e incluo uma
Sitemap:
referência no robots.txt, e isso certamente é suficiente para indexá-lo.O método recomendado para impedir que esses arquivos sejam indexados pelo Google é incluir um
X-Robots-Tag
cabeçalho de resposta HTTP ao veicular o mapa do site XML. Por exemplo:Assim como incluir uma tag META de robôs em arquivos HTML, o
X-Robots-Tag
cabeçalho pode ser usado para qualquer tipo de arquivo.Referência: este documento (de novembro de 2008!) Parece citar nosso próprio John Mueller (Google) no que diz respeito ao uso da
X-Robots-Tag
resposta ao lidar com sitemaps XML.Sim, o Google indexará e classificará o seu arquivo XML Sitemap
Para obter mais informações, consulte o guia do desenvolvedor do Google:
Especificações da metatag de robôs e do cabeçalho HTTP da X-Robots-Tag
fonte
X-Robots-Tag: noindex
código do cabeçalho? Dentrositemap.xml
ourobots.txt
?header('X-Robots-Tag: noindex',true)
) ou, se você estiver usando o Apache, no arquivo .htaccess ou na configuração do servidor. Veja a resposta de Stephen para exemplo de código. Veja também o guia do desenvolvedor do Google vinculado acima.A resposta do Sr.White sobre o uso do X-Robots-Tag parece ser a maneira correta de fazer isso.
Aqui está o código que pode ser usado nos arquivos de configuração .htaccess ou Apache para fazer isso. (Referência: WebmasterWorld - Sitemaps exibidos no SERP - Como evitar isso? )
Sob nginx, a configuração seria a seguinte. (Referência: exemplos de Yoast X-Robots-Tag )
fonte
Por que isso Importa?
Se você realmente conseguir encontrar o seu sitemap no SERP, terá maiores problemas.
Em vez disso, focaria mais em obter páginas com conteúdo útil. Dessa forma, você terá muita dificuldade em encontrar seu mapa do site. Não que você se importaria nesse ponto de qualquer maneira.
PS
Praticamente todos mantêm sitemaps no mesmo local. Então, se alguém quisesse descobrir onde você o guarda, eles o farão :)
fonte
coloque o seguinte no robots.txt
envie seu sitemap por meio das ferramentas do Google para webmasters.
fonte