Quando pesquiso algo no Google, às vezes vejo a data de publicação da postagem / artigo abaixo. Também procurei um artigo meu que eu tenho no meu site do Wordpress, e o Google também reconhece sua data de publicação.
Quando abro a fonte do meu site, não vejo tags especiais nem nada que indique a data de publicação. Ele é escrito apenas em uma div regular, sem nada de especial que indique ao SE que é a data de publicação (eu poderia ter outras datas de outras coisas na página também).
Então, é codificado no Google o local exato da data de publicação do Wordpress na árvore DOM ou estou faltando alguma coisa?
Estou construindo um novo site, com meu próprio CMS, e estou tentando descobrir como implementar o reconhecimento da data de publicação.
google-search
Can Poyrazoğlu
fonte
fonte
Respostas:
você deve acessar o sitemap xml ou a versão do feed RSS para indexar seus dados de publicação nos principais mecanismos de pesquisa, como Google, Yahoo e MSN. Gere o sitemap XML para o seu site e envie-o nas ferramentas principais da web para indexação.
fonte
Só tive um problema que todas as minhas páginas principais foram atualizadas há mais de 4 anos, embora o Google saiba que isso não é verdade porque as páginas foram indexadas por tanto tempo e mudam substancialmente de mês para mês. Depois de ficar realmente intrigado, irritado e confuso, finalmente encontrei o problema. Nossos termos legais estavam sendo veiculados em uma div oculta com a "Última atualização em 30 de outubro de 2007" e a div estava sendo carregada em quase todas as nossas páginas. (Como aparece no registro) Eu o removi e agora presumo que a data desapareça ou seja corrigida para algo mais razoável.
Uma história de advertência e mais uma evidência de que eles verificam a semântica do site mais do que os detalhes técnicos ou seu próprio histórico de indexação.
fonte
Duvido muito que a data de publicação de uma postagem ou artigo seja baseada na
<lastmod>
entrada de um sitemap XML (como outros sugeriram) ou no cabeçalho HTTP da última modificação nesse assunto. Um Sitemap XML é apenas consultivo, não autoritativo. A data da última modificação de um documento provavelmente não é a mesma que a data de publicação (original) de um artigo. E, como mencionei no meu comentário na parte superior da página, a data da última modificação de um documento é provavelmente mais importante para armazenar em cache e talvez determinar as taxas de rastreamento. O cabeçalho HTTP da última modificação de páginas geradas dinamicamente geralmente está muito próximo da data / hora real (como é o caso dos blogs do WordPress).Um feed RSS / Atom, por outro lado, contém essa pepita específica de informações. E, de fato, em sites Wordpress que não incluem a data de publicação no conteúdo, a data de publicação ainda aparece nos resultados de pesquisa do Google. E até onde eu sei, isso corresponde à data no feed RSS.
EDIT # 1: No entanto, um feed RSS não contém necessariamente todas as páginas. Na maioria dos casos, deve conter apenas as páginas atualizadas mais recentes ou mais recentes. Mas não há razão para o Google esquecer o que já leu, e o fornecimento do conteúdo dessa página não mudou, nem a data da última modificação.
Se não houver feed RSS, acho que o Google é inteligente o suficiente para analisar o conteúdo da página. Especialmente se as datas forem marcadas 'semanticamente' com a ajuda de microformatos . É perfeitamente possível que o Google veja o seguinte como a data de publicação oficial para um artigo em que ele está contido:
O Google certamente lê microformatos - hCard, hReview etc.
Só para acrescentar, não acho que o Google indique uma data de publicação, a menos que seja capaz de encontrar algo autoritário que sugira isso. Ele não deduzirá uma 'data de publicação' em dados especulativos, já que uma 'data de publicação' incorreta não é útil para ninguém e o Google terá muito empenho por isso!E só para constar (se @Tom estiver sugerindo o contrário :) Acho que as postagens / artigos devem ter a data de publicação visível. Muitos não, e isso pode ser frustrante para o leitor, principalmente ao pesquisar questões de tecnologia e você acha que depois de ler a meio do artigo está desatualizado!
EDIÇÃO # 2: Desde então, experimentei um aborrecimento semelhante que os detalhes de @mmdanziger em sua resposta. Em um dos meus sites antigos, tenho o texto "Última atualização do site dom 17 de junho de 2012" (não marcado de nenhuma maneira especial) na parte superior de todas as páginas (gravadas na página com JavaScript !!). Essa mesma data foi escolhida pelo Google e agora aparece ao lado de várias páginas (mas não todas) que aparecem no SERPS - essa certamente não é a data de publicação da página. Parece que o Google está simplesmente descartando a página em busca de uma sequência do formulário "última atualização ( cadeia de dados )" (tendo processado o JavaScript !!). Este site em particular não possui um feed RSS. O site possui um arquivo Sitemap.xml, mas as datas são diferentes.
Percebi um comportamento semelhante em outros sites também.
fonte
<div class="footer"> <div class="links"> April 24, 2011 | <a href=...
Este é o único lugar que se refere à data de publicação do meu post, e Google encontra e exibe corretamente no resultado da pesquisaAcho que o Google usa o Sitemap e o feed RSS para reconhecer a data de publicação. Você pode implementar esse recurso no seu CMS criando um mapa do site xml de acordo com os Padrões .
fonte
De acordo com Jonh Mueller no Google:
No entanto, acho mais provável que o Google procure datas em páginas da web nos seguintes locais:
fonte
Acho que procura inteligentemente as datas da página e quando está confiante de que é a data relevante em que a usa.
Às vezes, é um pouco difícil, pois acho que pode ter um impacto negativo na capacidade de clique em SERP, suponho que possa ter um impacto positivo temporário se for um artigo / post recente, mas tenho certeza de que meus sites estariam melhor sem ele No entanto, os pesquisadores do Google podem não estar em melhor situação sem ele!
Não há opções para controlá-lo via Google, apenas com seus próprios métodos. Você também pode:
Por esses motivos, eu simplesmente o ignoraria.
fonte