Para um site com conteúdo dinâmico (novos conteúdos são adicionados constantemente), devo incluir apenas o conteúdo mais recente no mapa do site ou incluir tudo (com um índice de mapa do site)? Quais são as práticas recomendadas para sitemaps esp. para sites grandes?
Além disso, existe uma maneira de fazer o Google (e outros mecanismos de pesquisa) rastrear apenas as páginas no mapa do site?
obrigado
Atualização:
Além disso, tem alguma idéia de como o stackoverflow lida com isso? Gostaria de saber, mas infelizmente (também compreensivelmente ) eles bloquearam o acesso ao mapa do site.
Respostas:
Inclua todas as páginas. O objetivo do sitemap XML é informar aos mecanismos de pesquisa sobre todo o seu conteúdo. Não apenas as coisas novas.
No site sitemaps.org (ênfase minha):
Se você tem muito conteúdo, pode usar vários sitemaps XML .
Se você tiver um conteúdo que não deseja rastrear ou indexar, precisará informar especificamente os mecanismos de pesquisa para não rastrear e indexar essas páginas. Use um arquivo robots.txt para bloquear as páginas ou diretórios que você não deseja rastrear. Você também pode usar uma meta tag para isso também. Mas você não pode especificar em um sitemap XML para não rastrear páginas não listadas.
fonte
Using a Sitemap file won't reduce our normal crawling of your site. It's additional information, not a replacement for crawling. Similarly, not having a URL in a Sitemap file doesn't mean that it won't be indexed.