Um URL de sitemap relativo pode ser usado em um robots.txt?

191

No robots.txt, posso escrever o seguinte URL relativo para o arquivo do sitemap?

sitemap: /sitemap.ashx

Ou tenho que usar o URL completo (absoluto) para o arquivo do sitemap, como:

sitemap: http://subdomain.domain.com/sitemap.ashx

Por que eu me pergunto:

  • Eu possuo um novo serviço de blog, www.domain.com, que permite que os usuários façam blog em accountname.domain.com.
  • Como uso curingas, todos os subdomínios (contas) apontam para: "blog.domain.com".

No blog.domain.com, coloquei o robots.txt para permitir que os mecanismos de pesquisa encontrem o mapa do site. Mas, devido aos curingas, todas as contas de usuário compartilham o mesmo arquivo robots.txt. É por isso que não posso usar a segunda alternativa. E por enquanto não posso usar a reescrita de URL para arquivos txt. (Eu acho que as versões posteriores do IIS podem lidar com isso?)

Easyrider
fonte

Respostas:

318

De acordo com a documentação oficial em sitemaps.org, ele precisa ser um URL completo:

Você pode especificar o local do Sitemap usando um arquivo robots.txt. Para fazer isso, basta adicionar a seguinte linha, incluindo o URL completo ao mapa do site:

Sitemap: http://www.example.com/sitemap.xml
unor
fonte
31
Observe que o exemplo de @ unor possui: Mapa do site com maiúscula S. Isso é importante, pois Robots.txt faz distinção entre maiúsculas e minúsculas.
BodgeIT
19
E sobre o tema do caso, robotstxt.org especifica o arquivo a ser nomeado robots.txtsem a capital R.
khargoosh
se o site estiver carregando https, URL do Sitemap mencionado com http. Isso é bom? Ou precisamos colocar o URL do sitemap com base no protocolo?
Shams
4
@ Shams: os URLs listados no seu sitemap precisam usar o mesmo protocolo e o mesmo host que o arquivo do sitemap. Se o seu site estiver disponível em http e https , você deve fornecer apenas um mapa do site (com a variante canônica) .
Unor
2

Os rastreadores do Google não são inteligentes o suficiente, eles não podem rastrear URLs relativos, por isso é sempre recomendável usar URLs absolutos para melhorar a rastreabilidade e a indexabilidade.

Portanto, você não pode usar esta variação

> sitemap: /sitemap.xml

A sintaxe recomendada é

Sitemap: https://www.yourdomain.com/sitemap.xml

Nota:

  • Não se esqueça de colocar a primeira letra em maiúscula no "sitemap"
  • Não se esqueça de colocar espaço após "Sitemap:"
Deepak Mathur
fonte
-2

Boa pergunta técnica e lógica, meu querido amigo. Não no arquivo robots.txt, você não pode usar o URL relativo do mapa do site; você precisa ir com o URL completo do mapa do site.

É melhor usar "sitemap: https://www.example.com/sitemap_index.xml "

No URL acima, após os dois pontos, há espaço. Também gosto de apoiar o Deepak.

cstpl123
fonte