Como o Google reconhece a data de publicação de uma postagem

17

Quando pesquiso algo no Google, às vezes vejo a data de publicação da postagem / artigo abaixo. Também procurei um artigo meu que eu tenho no meu site do Wordpress, e o Google também reconhece sua data de publicação.

Quando abro a fonte do meu site, não vejo tags especiais nem nada que indique a data de publicação. Ele é escrito apenas em uma div regular, sem nada de especial que indique ao SE que é a data de publicação (eu poderia ter outras datas de outras coisas na página também).

Então, é codificado no Google o local exato da data de publicação do Wordpress na árvore DOM ou estou faltando alguma coisa?

Estou construindo um novo site, com meu próprio CMS, e estou tentando descobrir como implementar o reconhecimento da data de publicação.

Can Poyrazoğlu
fonte
2
Você certamente está perdendo alguma coisa: você olhou apenas o HTML, mas também existem cabeçalhos HTTP que informam quando uma página foi modificada. O que eles estão relatando para o permalink do seu artigo? Eu acho que o Google usa isso em combinação com seus próprios registros de quanto a página mudou, mas eu não tenho nenhuma evidência real - daí o comentário, em vez de uma resposta.
22611 Peter Peter Taylor
sim, a minha foi uma tentativa "grosseira". Estarei analisando elementos / cabeçalhos não-HTML e mapa do site, como outros sugeriram também
Can Poyrazoğlu
@ Peter Sem dúvida que os cabeçalhos HTTP (principalmente o cabeçalho Last-Modified) são uma métrica usada pelos SEs. No entanto, duvido que ele tenha um papel importante na determinação da "data de publicação" de um artigo - pelo menos não o que o Google exibe como a data de publicação. (Outras SEs não parecem exibir uma 'data publicada'?) A data de publicação de um artigo provavelmente não é a data da última modificação de um documento. A maioria das páginas em sites dinâmicos (mesmo para posts do wordpress) parece retornar perto da data / hora atual. Na IMO, o cabeçalho Última modificação é usado principalmente para armazenamento em cache.
MrWhite
Eu acho que tem algo a ver com mapa do site ..
Can Poyrazoğlu
Última modificação do HTTP stackoverflow.com/questions/204010/… ou alguns metadados HTML semi-padrão: stackoverflow.com/questions/4575967/… são outras possibilidades, mas não tenho certeza se o Google realmente as usa.
Ciro Santilli escreveu

Respostas:

4

você deve acessar o sitemap xml ou a versão do feed RSS para indexar seus dados de publicação nos principais mecanismos de pesquisa, como Google, Yahoo e MSN. Gere o sitemap XML para o seu site e envie-o nas ferramentas principais da web para indexação.

eThan Hunt
fonte
7

Só tive um problema que todas as minhas páginas principais foram atualizadas há mais de 4 anos, embora o Google saiba que isso não é verdade porque as páginas foram indexadas por tanto tempo e mudam substancialmente de mês para mês. Depois de ficar realmente intrigado, irritado e confuso, finalmente encontrei o problema. Nossos termos legais estavam sendo veiculados em uma div oculta com a "Última atualização em 30 de outubro de 2007" e a div estava sendo carregada em quase todas as nossas páginas. (Como aparece no registro) Eu o removi e agora presumo que a data desapareça ou seja corrigida para algo mais razoável.

Uma história de advertência e mais uma evidência de que eles verificam a semântica do site mais do que os detalhes técnicos ou seu próprio histórico de indexação.

mmdanziger
fonte
Você inclui a data da última modificação de suas páginas em qualquer outro lugar da página, feed RSS ou mapa do site XML?
MrWhite
Não, porque o site não é um site de notícias e eu prefiro não enfatizá-lo. Idealmente, não haveria data para minha página inicial. Além disso, imagino que eles provavelmente usem o último modelo com um grande grão de sal - eu sei que o faria se fosse eles.
Mmdanziger
7

Duvido muito que a data de publicação de uma postagem ou artigo seja baseada na <lastmod>entrada de um sitemap XML (como outros sugeriram) ou no cabeçalho HTTP da última modificação nesse assunto. Um Sitemap XML é apenas consultivo, não autoritativo. A data da última modificação de um documento provavelmente não é a mesma que a data de publicação (original) de um artigo. E, como mencionei no meu comentário na parte superior da página, a data da última modificação de um documento é provavelmente mais importante para armazenar em cache e talvez determinar as taxas de rastreamento. O cabeçalho HTTP da última modificação de páginas geradas dinamicamente geralmente está muito próximo da data / hora real (como é o caso dos blogs do WordPress).

Um feed RSS / Atom, por outro lado, contém essa pepita específica de informações. E, de fato, em sites Wordpress que não incluem a data de publicação no conteúdo, a data de publicação ainda aparece nos resultados de pesquisa do Google. E até onde eu sei, isso corresponde à data no feed RSS.

EDIT # 1: No entanto, um feed RSS não contém necessariamente todas as páginas. Na maioria dos casos, deve conter apenas as páginas atualizadas mais recentes ou mais recentes. Mas não há razão para o Google esquecer o que já leu, e o fornecimento do conteúdo dessa página não mudou, nem a data da última modificação.

Se não houver feed RSS, acho que o Google é inteligente o suficiente para analisar o conteúdo da página. Especialmente se as datas forem marcadas 'semanticamente' com a ajuda de microformatos . É perfeitamente possível que o Google veja o seguinte como a data de publicação oficial para um artigo em que ele está contido:

<abbr class="published" title="2010-08-27T15:45:00-0700">
Friday, August 27th, 2010
</abbr>

O Google certamente lê microformatos - hCard, hReview etc.

Só para acrescentar, não acho que o Google indique uma data de publicação, a menos que seja capaz de encontrar algo autoritário que sugira isso. Ele não deduzirá uma 'data de publicação' em dados especulativos, já que uma 'data de publicação' incorreta não é útil para ninguém e o Google terá muito empenho por isso!

E só para constar (se @Tom estiver sugerindo o contrário :) Acho que as postagens / artigos devem ter a data de publicação visível. Muitos não, e isso pode ser frustrante para o leitor, principalmente ao pesquisar questões de tecnologia e você acha que depois de ler a meio do artigo está desatualizado!

EDIÇÃO # 2: Desde então, experimentei um aborrecimento semelhante que os detalhes de @mmdanziger em sua resposta. Em um dos meus sites antigos, tenho o texto "Última atualização do site dom 17 de junho de 2012" (não marcado de nenhuma maneira especial) na parte superior de todas as páginas (gravadas na página com JavaScript !!). Essa mesma data foi escolhida pelo Google e agora aparece ao lado de várias páginas (mas não todas) que aparecem no SERPS - essa certamente não é a data de publicação da página. Parece que o Google está simplesmente descartando a página em busca de uma sequência do formulário "última atualização ( cadeia de dados )" (tendo processado o JavaScript !!). Este site em particular não possui um feed RSS. O site possui um arquivo Sitemap.xml, mas as datas são diferentes.

Percebi um comportamento semelhante em outros sites também.

Sr. White
fonte
Como ele reconhece a data correta disso? <div class="footer"> <div class="links"> April 24, 2011 | <a href=...Este é o único lugar que se refere à data de publicação do meu post, e Google encontra e exibe corretamente no resultado da pesquisa
Can Poyrazoğlu
Existe algo específico na âncora que se segue? Então, novamente, pode não ser. Você também tem um feed RSS (vinculado nas tags META do documento)?
precisa saber é o seguinte
Eu estava procurando por resposta "como o Google determina a data?" mas notei a mesma coisa! O Google tenta encontrar uma sequência de tempo na própria página, em vez do cabeçalho modificado pela última vez ou Sitemap.xml <lastmod>! Obrigado por confirmar meus pensamentos!
evilReiko
5

Acho que o Google usa o Sitemap e o feed RSS para reconhecer a data de publicação. Você pode implementar esse recurso no seu CMS criando um mapa do site xml de acordo com os Padrões .

<lastmod>2011-08-18</lastmod>
Vamsi Krishna B
fonte
2

De acordo com Jonh Mueller no Google:

Usamos uma variedade de sinais para determinar qual data exibir ou se faz sentido exibir uma; não está vinculado a um atributo específico.

John Mueller - Twitter

No entanto, acho mais provável que o Google procure datas em páginas da web nos seguintes locais:

  • À vista da página, usando o aprendizado de máquina
  • Dados estruturados do Schema.org, especialmente se os dados também puderem ser encontrados à vista da página
Maximillian Laumeister
fonte
1

Acho que procura inteligentemente as datas da página e quando está confiante de que é a data relevante em que a usa.

Às vezes, é um pouco difícil, pois acho que pode ter um impacto negativo na capacidade de clique em SERP, suponho que possa ter um impacto positivo temporário se for um artigo / post recente, mas tenho certeza de que meus sites estariam melhor sem ele No entanto, os pesquisadores do Google podem não estar em melhor situação sem ele!

Não há opções para controlá-lo via Google, apenas com seus próprios métodos. Você também pode:

  • Substitua datas por imagens geradas dinamicamente, na tentativa de impedir que o Google as descubra, mas isso pode levar a outros problemas, como alinhamento visual / exibição consistente de fontes / acessibilidade, etc.
  • Retire todas as datas das páginas (isso novamente pode ser frustrante para visitantes / usuários quando eles desejam descobrir a idade de uma fonte, se você tiver informações relevantes).

Por esses motivos, eu simplesmente o ignoraria.

Tom Gullen
fonte
Eu não estou tentando remover a data :) Eu estou tentando adicionar o recurso de data para um novo site que estou construindo ..
Can Poyrazoğlu