Usamos um mapa do site no Stack Overflow, mas tenho sentimentos contraditórios sobre isso.
Os rastreadores da Web geralmente descobrem páginas de links no site e de outros sites. Os Sitemaps complementam esses dados para permitir que os rastreadores que suportam Sitemaps selecionem todos os URLs no Sitemap e aprendam sobre esses URLs usando os metadados associados. O uso do protocolo Sitemap não garante que as páginas da Web sejam incluídas nos mecanismos de pesquisa, mas fornece dicas para que os rastreadores da Web façam um trabalho melhor ao rastrear seu site.
Com base em nossos dois anos de experiência com sitemaps, há algo fundamentalmente paradoxal no mapa do site :
- Os Sitemaps destinam-se a sites difíceis de rastrear corretamente.
- Se o Google não conseguir rastrear seu site com sucesso para encontrar um link, mas conseguir encontrá-lo no mapa do site, ele não pesa no link do mapa do site e não o indexa!
Esse é o paradoxo do mapa do site - se o seu site não estiver sendo rastreado corretamente (por qualquer motivo), o uso de um mapa do site não ajudará!
O Google faz de tudo para não garantir o mapa do site :
"Nós não podemos fazer qualquer previsão ou garantia sobre quando ou se seus URLs serão rastreados ou adicionados ao nosso índice" citação
"Não garantimos que rastrearemos ou indexaremos todos os seus URLs. Por exemplo, não rastrearemos ou indexaremos URLs de imagem contidos no seu Sitemap." citação
"enviar um Sitemap não garante que todas as páginas do seu site serão rastreadas ou incluídas em nossos resultados de pesquisa" citação
Como os links encontrados nos mapas de site são meramente recomendações , enquanto os links encontrados no seu próprio site são considerados canônicos ... parece que a única coisa lógica a fazer é evitar ter um mapa do site e garantir que o Google e qualquer outro mecanismo de pesquisa possam organize seu site usando as antigas páginas da web padrão que todo mundo vê.
No momento em que você fez isso , e está ficando muito bom e completo, para que o Google veja que o seu próprio site está vinculado a essas páginas e esteja disposto a rastrear os links - por que precisamos de um mapa do site novamente? O mapa do site pode ser ativamente prejudicial, porque o distrai de garantir que os spiders dos mecanismos de pesquisa possam rastrear com êxito todo o site. "Ah, não importa se o rastreador pode vê-lo, basta colocar esses links no mapa do site!" A realidade é exatamente o oposto de nossa experiência.
Isso parece um pouco irônico, considerando que os sitemaps foram destinados a sites que possuem uma coleção muito profunda de links ou interface do usuário complexa que podem ser difíceis de entender. De acordo com nossa experiência, o mapa do site não ajuda, porque se o Google não conseguir encontrar o link no seu site corretamente, ele não o indexará do mesmo. Vimos isso repetidamente, com perguntas sobre o Stack Overflow.
Estou errado? Os sitemaps fazem sentido e, de alguma forma, estamos apenas os usando incorretamente?
fonte
Respostas:
Isenção de responsabilidade: trabalho em conjunto com a equipe de Sitemaps no Google, por isso sou um pouco tendenciosa :-).
Além de usar Sitemaps extensivamente para conteúdo "sem índice da Web" (imagens, vídeos, Notícias etc.), usamos as informações dos URLs incluídos nos arquivos dos Sitemaps para os seguintes objetivos:
No lado do webmaster, também achei os arquivos de Sitemaps extremamente úteis:
Concedido, para sites realmente pequenos, estáticos e com rastreamento fácil, o uso de Sitemaps pode ser desnecessário do ponto de vista do Google depois que o site for rastreado e indexado. Para qualquer outra coisa, eu realmente recomendo usá-los.
FWIW Há alguns conceitos errados que eu gostaria de abordar também:
fonte
priority
campo?1 2 3 ... 22 **23** 24 ... 198 199 200
. Portanto, para encontrar um produto na página 100, você precisará acessar cerca de 100 links. Ou use a barra de pesquisa. O googlebot rastrearia isso ou desistiria após cerca de 20 níveis? Um sitemap seria a solução apropriada aqui?Se você sabe que possui uma boa arquitetura de site e o Google encontra suas páginas naturalmente, o único benefício que eu conheço é a indexação mais rápida, se o site estiver sendo indexado com rapidez suficiente para você, não há necessidade.
Aqui está um artigo de 2009 em que um cavalheiro testou a rapidez com que o Google rastreou seu site com e sem um sitemap. http://www.seomoz.org/blog/do-sitemaps-effect-crawlers
Minha regra geral é que, se você estiver lançando algo novo e não testado, deseja ver como o Google rastreia seu site para garantir que não haja nada que precise ser corrigido. Portanto, não envie, no entanto, se estiver fazendo alterações e quiser O Google para vê-los mais rapidamente do que enviar ou, se você tiver outras informações confidenciais, como notícias de última hora, envie porque deseja fazer o que puder para garantir que você seja o primeiro que o Google vê, caso contrário, é uma questão de preferência.
fonte
Eu suspeito: para o Google, os sitemaps são necessários para acompanhar as atualizações da maneira mais rápida possível. Por exemplo, digamos que você adicionou um novo conteúdo a um local profundo do seu site, o que leva de 10 a 20 cliques para chegar a partir da sua página inicial. Para o Google chegar a essa nova página, seria menos provável em um curto espaço de tempo - então, até que um caminho para esta página seja totalmente determinado, a existência dela é anunciada. Afinal, o PageRank não é calculado imediatamente, requer tempo para avaliar o comportamento do usuário e tal - até então, por que o mecanismo não deve rastrear e indexar uma página com conteúdo novo?
fonte
Os Sitemaps são incrivelmente valiosos se você os usar corretamente.
Primeiro, o fato de o Google dizer que é uma dica serve apenas para: a) garantir que os webmasters não tenham a falsa impressão de que sitemap = indexação eb) dar ao Google a capacidade de ignorar determinados sitemaps se eles considerarem não confiáveis ( aka lastmod é a data atual de todos os URLs todos os dias em que são acessados.)
No entanto, o Google geralmente gosta e consome sitemaps (na verdade, às vezes, eles encontram seus próprios e os adicionam às Ferramentas do Google para webmasters). Por quê? Aumenta a eficiência com a qual eles podem rastrear.
Em vez de começar em um site inicial e rastrear a Web, eles podem alocar uma quantia apropriada de seu orçamento de rastreamento para um site com base nos mapas de site enviados. Eles também podem criar um grande histórico do seu site com dados de erro associados (500, 404 etc.)
Do Google:
"O Googlebot rastreia a Web seguindo os links de uma página para outra. Portanto, se seu site não estiver bem vinculado, pode ser difícil descobrir."
O que eles não dizem é que o rastreamento da Web é demorado e eles preferem ter uma folha de dicas (também conhecida como mapa do site).
Claro, seu site pode ficar bem do ponto de vista do rastreamento, mas se você deseja introduzir um novo conteúdo, soltar esse conteúdo em um mapa do site com alta prioridade é uma maneira mais rápida de rastrear e indexar.
E isso também funciona para o Google, pois eles desejam encontrar, rastrear e indexar novos conteúdos - rapidamente. Agora, mesmo que você não pense que o Google prefere o caminho mais conhecido do que o facão na selva, há outro motivo pelo qual os sitemaps são valiosos - o rastreamento.
Em particular, usando um índice de sitemap (http://sitemaps.org/protocol.php#index), você pode dividir seu site em seções - sitemap por sitemap. Ao fazer isso, você poderá analisar a taxa de indexação do seu site, seção por seção.
Uma seção ou tipo de conteúdo pode ter uma taxa de indexação de 87% enquanto outra pode ter uma taxa de indexação de 46%. É seu trabalho descobrir o porquê.
Para aproveitar ao máximo os mapas de site, você deve acompanhar o rastreamento do Googlebot (e Bingbot) em seu site (por meio de blogs), associá-los aos mapas de site e segui-los até o tráfego.
Não durma nos sitemaps - invista neles.
fonte
Nas palavras do Google: "Na maioria dos casos, os webmasters se beneficiarão com o envio do Sitemap, e em nenhum caso você será penalizado por isso".
Mas concordo que a melhor coisa que você pode fazer se quiser que as páginas de seu site apareçam nos mecanismos de pesquisa é garantir que elas possam ser rastreáveis no site.
fonte
Acredito que os mecanismos de pesquisa usam o mapa do site não tanto para encontrar páginas, mas para otimizar a frequência com que eles verificam as atualizações. Eles olham
<changefreq>
e<lastmod>
. O Google provavelmente monitora o site inteiro com muita frequência (verifique seus registros!), Mas nem todos os mecanismos de pesquisa têm os recursos para fazer isso (alguém já tentou o Blekko ?). De qualquer forma, uma vez que não há penalidade por usá-los e eles podem ser criados de forma automática e fácil. Eu continuaria fazendo isso.fonte
<priority>
campo seja bastante importante, para que eles saibam quais páginas são mais vitais. Por exemplo, no Stack Overflow, você tem centenas de tags e páginas de usuário que são boas, mas nem de longe tão importantes quanto as próprias perguntas. Se o sitemap definir a prioridade da pergunta como 1 e tudo mais baixo, é mais provável que as perguntas sejam indexadas em outras páginas.se você se importa com esse tópico, leia este ótimo artigo do Google http://googlewebmastercentral.blogspot.com/2009/04/research-study-of-sitemaps.html (abril de 2009) - leia o artigo completo, não apenas o post do blog .
do papel
mas sim, o mapa do site é usado principalmente para a descoberta (o processo de o Google descobrir suas coisas), não para determinar o valor. se você luta com a descoberta, use um mapa do site. a descoberta é uma pré-condição para o rastreamento, mas não afeta a determinação do valor.
da minha experiência
Quando implemento uma estratégia de SEO para um site com mais de meio milhão de páginas, busco
todo o resto é apenas "balast" - sim, outras coisas podem ter um valor positivo de SEO, mas definitivamente têm um valor negativo: torna o site mais difícil de gerenciar. (ps: para determinação do valor, interligo as páginas de aterrissagem de maneira sensorial (grande impacto), mas esse já é o segundo passo.
sobre sua pergunta: não confunda descoberta, rastreamento, indexação e classificação. você pode acompanhar todos eles separadamente e otimizar todos eles separadamente. e você pode aprimorar a descoberta e o rastreamento de maneira importante com um ótimo mapa do site (em tempo real).
fonte
Sitemaps podem salvar sua bunda.
Em um dos meus sites, tenho um grande número de links que evitam que os mecanismos de pesquisa se espalhem. Para encurtar a história, o Google interpretou mal o JS no meu fórum e acionou muitos códigos de resposta 500 e 403, que eu acreditava estar afetando a posição do site. Eu resolvi isso excluindo os URLs problemáticos via robots.txt.
Um dia, errei e fiz algo que impedia o Google de rastrear algumas páginas do site que eu realmente queria indexar. Por causa das exclusões do fórum, a seção de erro das Ferramentas do Google para webmasters para "Restrito pelo robots.txt" tinha mais de 4000 páginas, então eu não teria capturado esse erro até que fosse tarde demais.
Felizmente, como todas as páginas "importantes" do meu site estão nos sitemaps, pude detectar rapidamente esse problema na categoria de erro especial que as Ferramentas do Google para webmasters têm para problemas com páginas nos sitemaps.
Além disso, também tenho muitos benefícios em usar um Índice de Sitemap para determinar a qualidade de indexação de várias seções dos meus sites, conforme mencionado por @AJ Kohn.
fonte
Eu não me deparei com isso sozinho, mas a maioria dos meus projetos são aplicativos ou sites que, de outra forma, exigem contas de usuário, portanto a indexação pelos mecanismos de pesquisa não é o foco.
Dito isso, ouvi dizer que o SEO basicamente tornou inúteis os sitemaps. Se você observar o protocolo, é uma espécie de "sistema de honra" dizer com que frequência uma página é alterada e qual é a prioridade relativa de cada página. É lógico que uma dúzia de empresas de SEO usam mal os campos - cada página é a principal prioridade! cada página muda a cada hora! - e tornou sitemaps efetivamente inúteis.
Este artigo de 2008 diz basicamente isso e parece chegar à mesma conclusão que você: o mapa do site é muito inútil e é melhor otimizar o conteúdo a ser indexado e abandonar o mapa do site.
fonte
Deixe rastejar.
Eu faço o seguinte:
Eu gero um arquivo XML estendido, que serve como base para muitas coisas:
Portanto, eu tenho tudo isso, por que não servir também um sitemap xml e deixar o rastreador fazer o que gostaria de fazer, se gostaria de fazê-lo?
fonte
Jeff, não tenho idéia do Stackoverflow, porque nunca tive a oportunidade de ser um webmaster de um site tão grande e atualizado com tanta frequência.
Para sites pequenos que não mudam frequentemente, acho que o mapa do site é bastante útil (sem dizer que o mapa do site é a coisa mais importante, mas sim bastante útil) por dois motivos:
O site é rastreado rapidamente (mesmo motivo explicado pela resposta de Joshak acima ) e, em minha pequena experiência, notei isso muitas vezes em sites pequenos (até 30/50 páginas)
Depois de algumas semanas em que enviei um sitemap, procuro em "Ferramentas para webmasters do Google - Sitemaps" e vejo o número de URLs enviados no sitemap VS o número de URLs no índice da web . Se eu vejo que eles são iguais, então é bom. Caso contrário, posso verificar imediatamente em meus sites quais páginas não estão sendo indexadas e por quê.
fonte
Isso foi (primeiro?) Escrito por Randfish no SEOmoz no bom e velho ano de 2007. Na primeira vez em que ele chegou ao mesmo tipo de conclusões, mas depois o tempo aconteceu ... e passou.
Desde então, (janeiro de 2009) adicionou um postscript ao artigo, afirmando que quaisquer possíveis desvantagens são simplesmente superadas pelos resultados positivos gerais da geração, verificação e envio de sitemaps.
fonte
Acredito que os SiteMaps servem apenas a dois propósitos atualmente:
fonte
NÃO USE MAPAS DE SITE
Os Sitemaps são principalmente para sites que não registram timestamp nos índices e nós .... O SE faz as duas coisas por seu conteúdo principal, portanto, ter um mapa do site atrasará o rastreador ... Sim, é isso mesmo, porque o mapa do site não possui os metadados que os índices principais possuem. Por outro lado, eu não tenho nenhuma idéia real de como o Google constrói seus bots, apenas sei se eu estava indo para o bot SE, eu NÃO usaria o mapa do site. Além disso, alguns sites nem percebem que os mapas de site são todos%! @ $ - e se você criou um perfil em um mapa do site, de repente não está funcionando, e é necessário criar um novo perfil fora do site. site real.
Então, você está certo - NÃO USE SITEMAPS!
DICA: uma coisa que você deve fazer é manter a semântica das tags o mesmo ao longo do tempo, tanto quanto possível, ou seja, se "Asked One Hour Ago" tiver metadados incorporados, como:
nunca altere o nome da sequência
relativetime
, a menos que o significado dos dadostitle
seja alterado. NUNCA... :-)fonte
Reestruturei recentemente um site em que ainda estou trabalhando. Como não havia uma boa maneira de vincular 500.000 páginas para ajudar os usuários, decidi usar um mapa do site XML e enviá-lo ao Google e, em vez disso, usar a pesquisa no site. O Google não teve nenhum problema ao indexar meu site anteriormente, no entanto, desde a adição do mapa do site, o Google é muito agressivo ao criar um site e indexar as páginas extremamente rápido. O Google usou o mapa do site para encontrar novas páginas (cerca de 3300 por semana) e revisar páginas atualizadas. Foi uma vitória real no meu livro. Ainda quero descobrir uma nova maneira de vincular minhas páginas e usar o AJAX para consulta, mas esse é um projeto para outro dia. Por enquanto, tudo bem! Foi uma boa solução para mim. Tudo e tudo, eu ganhei e não perdi. O que é interessante, pois sempre achei que os sitemaps poderiam ser mais úteis, mas limitados pelo design.
fonte
Ouvi dizer que os sitemaps colocam suas páginas no índice suplementar mais rapidamente. Mas eu nem ouvi o índice suplementar mencionado há muito tempo, então eles podem não o usar mais.
PS, caso minha declaração não seja clara o suficiente, estar no índice suplementar é (ou foi) uma coisa MAU ... portanto, um sitemap é (ou era) MAU.
fonte
Usamos sitemaps (não enviados aos mecanismos de pesquisa, mas vinculados
robots.txt
) principalmente para garantir que a página inicial seja a mais alta<priority>
. Não tenho certeza se eles têm muito outro uso.fonte
Não concordo que o Google não indexe os links somente do sitemap. Eu tenho vários sites que têm páginas acessíveis apenas através de sitemaps, e o Google os indexa sem problemas. Eu posso dar muitos exemplos disso.
fonte
Um site bem construído não precisa de um mapa do site, embora possa ajudar com nossa cobertura e classificação e agregar um pouco de valor extra, como prioridade, frequência de atualização etc. Você pode dizer a um mecanismo de pesquisa ei ... Atualizei esta página em algum lugar no meio do meu site sem exigir um rastreamento completo. Eu nunca olhei para os padrões de rastreamento, mas seria de esperar que isso ajudasse.
Dito isso, a verdadeira vantagem para mim são as ferramentas para webmasters e o insight que ele fornece à visibilidade do site e aos usuários.
fonte