O Google penaliza as tags <lastmod> atualizadas diariamente nos sitemaps se os dados não são atualizados diariamente?

10

Eu tenho um sitemap que é gerado diariamente com muitos links para páginas de produtos. Esses produtos são importados diariamente de outra fonte de dados. Como a atualização consiste em descartar todas as informações atuais do produto e substituí-las pelas novas informações importadas, a data da última modificação sempre salta um dia. Isso também é usado no mapa do site. Mesmo para produtos que não foram alterados. Todas as páginas de produtos fingem ter sido atualizadas.

O Google penalizará o site por fingir que as páginas foram alteradas dia após dia?

Minha solução seria alterar a entrada apenas se os novos dados do produto importado diferirem dos dados anteriores. Eu só quero ter certeza de que esta é uma atualização útil a ser feita, enquanto eu também poderia gastar meu tempo em outras melhorias.

Elicitar
fonte

Respostas:

5

Eu nunca ouvi nada sobre uma penalidade devido a isso. Na pior das hipóteses, você está perdendo o tempo da aranha, mas isso é parte do motivo de termos computadores: fazer coisas repetitivas e tediosas. Ainda assim, você deve, idealmente, abordar o problema.

Este...

Minha solução seria alterar a entrada apenas se os novos dados do produto importado diferirem dos dados anteriores.

... é o que você deve fazer em primeiro lugar, independentemente de considerações externas, como mapas de site, etc. Se o seu conteúdo não for diferente (e eu incluiria a exclusão e a substituição de informações idênticas nessa descrição), sua lastmoddata não deve ser ser modificado. Aqui você está desperdiçando seus próprios recursos. Você não disse quantos produtos estão envolvidos, mas haverá um ponto em que esse processo ficará lento e computacionalmente caro.

Su '
fonte
Eu concordo totalmente. No entanto, sou confiável em outra empresa que entrega os dados. Eles sempre enviam todos os produtos (+200) em suas exportações de dados. Portanto, atualizar o lote parecia a melhor solução há alguns anos. Meu cliente não tem orçamento para resolver isso corretamente. Essas ex / importações acontecem à noite, portanto, os recursos extra usados ​​não são um grande problema no momento.
Elicitar
@Licit, se você ainda tiver esse problema, armazene as exportações de dados do dia anterior em seu formato original e analisável e faça uma comparação no estilo diff do git para ver quais produtos foram alterados. Embora seja legal, você não precisa deles para enviar apenas os produtos alterados; você deve conseguir descobrir por si mesmo.
Anonymous Penguin
3

Eu nunca gostei da idéia de atualizar <lastmod>todos os dias, pois não é apenas errado, é um mecanismo de pesquisa enganoso.

Em um post publicado no SO , Gary Illyes, do Google, escreveu:

A tag lastmod é opcional nos sitmaps e, na maioria dos casos, é ignorada pelos mecanismos de pesquisa, porque os webmasters estão fazendo um trabalho horrível, mantendo-a precisa.

Eu geralmente defendi o uso <lastmod>correto ou não. Deixá-lo de fora (assim como <changefreq>& <priority>) torna o arquivo menor e mais rápido para os mecanismos de pesquisa lerem também.

Andrew Lott
fonte
2

Não. O Google usará lastmodcomo dica (o mesmo que todos os valores do mapa do site), mas se decidir que seu conteúdo não está sendo atualizado diariamente, simplesmente o ignorará e revisitará suas páginas de acordo com sua própria programação.

DisgruntledGoat
fonte
2

Não trabalho para o Google e não posso dizer com certeza o que eles realmente fazem, mas a maneira mais sensata de tratar os <lastmod>carimbos de data / hora seria como dicas para não perder tempo re-rastreando páginas que não foram alteradas.

Portanto, se você reportar todas as suas páginas como alteradas todos os dias, o Googlebot continuará rastreando todas as suas páginas na ordem em que parecer, em vez de focar apenas nas páginas que foram alteradas. Com efeito, é como se você não tivesse relatado nenhum carimbo de data / hora da última modificação.

O principal motivo para fornecer <lastmod>registros de data e hora corretos é fazer com que as alterações no seu site sejam exibidas mais rapidamente no índice do Google. Se você possui centenas de páginas em seu site, o Google levará um tempo para rastrear todas elas e encontrar quaisquer alterações. No entanto, se você informar ao Googlebot quais páginas foram alteradas recentemente, ele poderá rastrear essas páginas primeiro e evitar perder muito tempo com o resto.

Obviamente, você pode aumentar a taxa de rastreamento do Googlebot nas Ferramentas do Google para webmasters e esperar o melhor. Mas, realmente, não deve ser muito difícil fazer com que seu script de atualização preserve os registros de data e hora. Por exemplo, suponho que você esteja fazendo algo assim:

for each product do:
    write new page content into product page file;
end do;

Nesse caso, basta alterá-lo para algo assim:

for each product do:
    read old page content from product page file into string A;
    write new page content into string B;
    if A is not equal to B then:
        write string B into product page file;
    end if;
end do;
Ilmari Karonen
fonte
2

Não, simplesmente ignora as informações que você forneceu quando estão incorretas. Nesse caso, os rastreadores da Web descobrem sozinhos a frequência com que devem rastrear suas páginas.

Jérôme Verstrynge
fonte
O link está quebrado ...
Victor Schröder
1

O Google não o penalizará por isso. Para obter uma penalidade, você realmente precisa usar um chapéu preto na bunda do Google, então não se preocupe com isso. O Google descobrirá em breve se seu conteúdo sofrer alterações (é o que eles vêm trabalhando nos últimos anos) e usará a propriedade lastmod como uma dica.

Steven Van Vessum
fonte
1

Sugiro que você leia estas práticas recomendadas para sitemaps XML e feeds RSS / Atom

Hora da última modificação

Especifique o horário da última modificação de cada URL em um sitemap XML e feed RSS / Atom. A hora da última modificação deve ser a última vez que o conteúdo da página foi alterado significativamente. Se uma alteração for visível nos resultados da pesquisa, a hora da última modificação deverá ser a hora dessa alteração.

XML sitemap uses  <lastmod>
RSS uses <pubDate>
Atom uses <updated>

Certifique-se de definir ou atualizar o horário da última modificação corretamente:

Specify the time in the correct format: W3C Datetime for XML sitemaps, RFC3339 for Atom and RFC822 for RSS.
Only update modification time when the content changed meaningfully.
Don’t set the last modification time to the current time whenever the sitemap or feed is served.
John
fonte
Obrigado pela atualização. Esperemos que o downvoter o veja e reverta seu voto.
John Conde