Devo incluir tudo no mapa do site ou apenas novos conteúdos?

13

Para um site com conteúdo dinâmico (novos conteúdos são adicionados constantemente), devo incluir apenas o conteúdo mais recente no mapa do site ou incluir tudo (com um índice de mapa do site)? Quais são as práticas recomendadas para sitemaps esp. para sites grandes?

Além disso, existe uma maneira de fazer o Google (e outros mecanismos de pesquisa) rastrear apenas as páginas no mapa do site?

obrigado

Atualização:
Além disso, tem alguma idéia de como o stackoverflow lida com isso? Gostaria de saber, mas infelizmente (também compreensivelmente ) eles bloquearam o acesso ao mapa do site.

Mee
fonte
1
Qual é o tamanho do site? Há um limite de tamanho para o robots.txt e o mapa do site. Surpreendentemente, muitos excedem os dois, e é por isso que estou perguntando.
Tim Post
@ Tim, não é realmente grande por enquanto (tudo pode caber em um sitemap), mas estou tentando planejar com antecedência.
Mee

Respostas:

13

Inclua todas as páginas. O objetivo do sitemap XML é informar aos mecanismos de pesquisa sobre todo o seu conteúdo. Não apenas as coisas novas.

No site sitemaps.org (ênfase minha):

Os Sitemaps são uma maneira fácil para os webmasters informarem os mecanismos de pesquisa sobre as páginas dos sites disponíveis para rastreamento .

Se você tem muito conteúdo, pode usar vários sitemaps XML .

Se você tiver um conteúdo que não deseja rastrear ou indexar, precisará informar especificamente os mecanismos de pesquisa para não rastrear e indexar essas páginas. Use um arquivo robots.txt para bloquear as páginas ou diretórios que você não deseja rastrear. Você também pode usar uma meta tag para isso também. Mas você não pode especificar em um sitemap XML para não rastrear páginas não listadas.

John Conde
fonte
Obrigado pela sua resposta, incluirei tudo no mapa do site.
Mee
Você tem uma biblioteca que pode lidar com mais de 50 k de páginas?
São mais de 50 mil páginas em um banco de dados?
John Conde
Você não precisa colocar todas as páginas do seu site em um mapa do site. Um mapa do site é útil para informar os mecanismos de pesquisa sobre as páginas disponíveis para rastreamento. Se o mecanismo de pesquisa já pode ver todas as páginas rastreáveis ​​e você não está adicionando informações sobre a "última modificação", não há motivo para ter uma.
Django Reinhardt
1
Esta resposta parece um pouco conflitante com webmasters.stackexchange.com/a/5151/30596 . Citando @John Mueller do Google,Using a Sitemap file won't reduce our normal crawling of your site. It's additional information, not a replacement for crawling. Similarly, not having a URL in a Sitemap file doesn't mean that it won't be indexed.
usuário