Como saber quantos anos tem uma página?

15

Eu pensei que o Google era mais ou menos preciso ao determinar quem postou um texto primeiro e quem copiou. No entanto, quando eu uso a "ferramenta de pesquisa: intervalo personalizado", os resultados são bastante ímpares. Encontrei páginas que datam de 2002 para um site que eu possuía há apenas alguns anos.

Portanto, o Google não é preciso para descobrir quem copiou e quem escreveu o original. O que é?

insira a descrição da imagem aqui

Se stackexchange.comfoi criado em 2009, como isso é possível? hermeneutics.seé mais antigo que o estouro de pilha!

Renan
fonte
Alguém possuía o nome de domínio antes de você? Quais são as páginas que você está comparando no Google?
Closetnoc 18/03/2014
Eu atualizei a pergunta com dados SE. Os carimbos de hora não podem ser precisos.
Renan
2
Uau. Não tenho certeza. Entendo a mecânica disso normalmente, mas o que o Google faz ainda é um mistério. Há muito pouca informação na rede sobre como o Google determina datas. Tivemos uma pergunta sobre como o Google determina datas modificadas há pouco tempo. Eu fiz algumas pesquisas e não há quase nada. Ainda assim, vou olhar novamente. Mas pode demorar alguns dias. Lembre-se de que o software CMS e provavelmente o código SE não retornam datas de criação e modificação, como o Apache faria para páginas HTML. E essa pode ser a resposta.
Closetnoc 18/03/2014
Ele não precisa ser o Google, mas eu realmente quero saber se meus usuários estão plagiando ou sendo plagiados. = /
Renan
Até agora, parece que o Google não está entendendo o formato da data no HTML, mas isso não é conclusivo. O código-fonte da primeira página de exemplo não fornece pistas claras para o Google. O Google (pelo menos) parece ou uma data nesta ordem: URL, título, corpo (conteúdo), metatags, data da última modificação da resposta HTTP. Uma solicitação HEAD retorna a data de criação e a data da última modificação. Além disso, um GET com if-modified-since retorna o recurso com 200 Ok ou retorna 304 Não Modificado. O código SE pode não estar retornando essas e apenas URL, título, conteúdo e metatags estão disponíveis.
Closetnoc 18/03/2014

Respostas:

12

Pesquisei a resposta para esta pergunta desta maneira: usando o Google, já que este é o exemplo que tenho, como o Google obtém datas de criação e datas modificadas e formatos de data que o Google reconhece. Por favor, entenda que essa informação não existe em apenas algumas páginas e eu tive que descobrir os dados de muitas fontes, algumas das quais parecem não se aplicar diretamente e reuni-las. Em alguns casos, as informações são derivadas de várias fontes e nem sempre são citáveis.

O Google procura datas da página nesta ordem; URL, tag de título, corpo (conteúdo), metatags, cabeçalho de resposta HTTP pelo menos no que diz respeito ao appliance. Em outros parágrafos de outros documentos, nenhuma ordem foi documentada, mas a lista foi discutida e pareceu confirmar a lista. Se você pensar bem, isso reflete a ordem que um mecanismo de pesquisa faria; um - descubra sua página (link) e dois - leia sua página de cima para baixo (título, corpo e metatag), com exceção da metatag (pequenos detalhes) e do cabeçalho de resposta HTTP. Aqui está a lista no que diz respeito ao dispositivo:https://developers.google.com/search-appliance/documentation/68/admin_crawl/Preparing#docdaterule

Nota: a data de criação é a data em que a página foi solicitada pela primeira vez pelo Google. Na ausência de uma data de criação, a data de criação é usada.

1] Qualquer mecanismo de pesquisa pode solicitar um recurso por meio de uma solicitação HTTP GET e o servidor da Web retorna a data da última modificação no cabeçalho de resposta com o recurso no pacote de dados.

2] Qualquer mecanismo de pesquisa pode solicitar informações de cabeçalho de um recurso por meio de uma solicitação HTTP HEAD e o servidor da Web retorna a data modificada no cabeçalho de resposta sem o recurso no pacote de dados.

3] Qualquer mecanismo de pesquisa pode solicitar se um recurso foi modificado desde uma certa data, solicitando um recurso com um HTTP GET com if-modified-since definido como uma data. Se o recurso tiver sido modificado desde a data definida, o servidor da Web responderá com uma resposta de 200 Ok e retornará o recurso ou, se o recurso não tiver sido modificado desde a data definida, o servidor da Web responderá com um 304 Não Modificado sem retornar o recurso .

O Google faz muitas solicitações usando o método nº 3 para economizar largura de banda. Você os verá nos arquivos de log do servidor da web.

Nota: É possível que um sistema de gerenciamento de conteúdo (CMS) ou outro software não possa fornecer a data adequadamente dentro de um cabeçalho de resposta.

Esses exemplos de datas também vêm da documentação do Google Appliance, mas também existem em outros locais relacionados à pesquisa geral. Tirei esses detalhes da documentação do dispositivo simplesmente porque ele poderia ser recortado e colado como uma lista, onde em outros lugares não era tão elegante.

4] O Google procura uma data no URL. Ele procura os seguintes formatos; AAAAMMDDHH - AAAA - AAAAMM.

5] O Google procura uma data na tag do título. Ele procura os seguintes formatos; AAAAMMDDHH - AAAA - AAAAMM, embora eu suspeite que outros formatos possam ser reconhecidos. Ver abaixo.

6] O Google procura uma data na etiqueta do corpo (conteúdo). Ele procura os seguintes formatos; YYYMMDDHH - YYYYMMDD - YYYYMM - YYYY - DDMMYYYY - YYMMMDD - MMDDYYYY - YYMMDD - DDMMYY - MMDDYY Embora eu suspeite que outros formatos possam ser reconhecidos. Ver abaixo.

Nota: Sabe-se que o Google procura especificamente uma data logo abaixo da primeira H1tag. Isso ocorre porque os blogs geralmente colocam datas nesse local.

7] O Google procura uma metatag como esta. <meta http-equiv="last-modified" content="YYYY-MM-DD@hh:mm:ss TMZ" />

Diz-se também que o Google reconhece os seguintes formatos de data.

AAAA-MD - AAAA.MD - AAAA / M / D - MD-AAAA - MDYYYY - M / D / AAAA - AA-MM-DD - AA.MM.DD - AA / MM / DD - WK, D MON, YR - WK, MON D, ANO - D MON, YR - MON AAAA - MON D, ANO - MON AA - AAAA-DM - ​​AAAA.DM - AAAA / D / M - DM-AAAA - DMYYYY - D / M / AAAA - DD-MM-AA - MM-DD-AA - DD / MM / AA - MM / DD / AA - AAAAMMDDHH - AAAAMMDD - AAAAMM - AAAA - DDMMYYYY - MMDDYYYY - AAAMDD - DDMMYY - MMDDYY

A pesquisa que encontrei não respondeu à questão do tempo.

No caso dos exemplos citados, as páginas não fornecem pistas de data, exceto dentro de uma tag span que pode ser ignorada. É possível que o software / servidor da Web SE não possa retornar a criação e as datas modificadas em qualquer cabeçalho de resposta.

Por que e como o Google derivou essas datas é uma boa pergunta que nunca pode ser resolvida. Vou continuar procurando no entanto.

closetnoc
fonte
3
Você tem alguma referência para "O Google procura datas da página nesta ordem; URL, tag de título, corpo (conteúdo), metatags, cabeçalho de resposta HTTP". Você tem algum número ou estatística para esta pesquisa ?. Se você pudesse postar referências para o que publicou aqui, seria muito melhor para todos nós.
PatomaS
Agradeço sua pergunta. Muito do que encontrei foi em pedaços. A lista foi encontrada em vários locais, mas o pedido foi encontrado na documentação do Google Search Appliance e parecia ter o backup em parágrafos em outros locais. Eu literalmente olhei para várias dezenas de documentos que demoraram um pouco para serem encontrados. Tentei ter o cuidado de dizer que precisava reunir os dados de várias fontes, pois não parecia haver nenhuma informação direta sobre isso. Vou editar a declaração para torná-la mais clara.
closetnoc
Também posso confirmar que a seguinte sequência de formato de data contida em algum article.post > div.post-content > h2 > pnível foi recentemente captada pelo Google e usada para exibir a data: "Última atualização: 7 de outubro de 2018"
Matt
-2

Se você deseja ver quantos anos tem um domínio, pesquise no Google por wayback machine . Este site é o que você está procurando: http://archive.org/web/ .

Se você deseja detectar plágio, este link o ajudará: http://copyscape.com/signup.php?pro=0&o=f

Além disso, pesquise no Google por "verificador de plágio".

Espero ter ajudado.

Pascut
fonte
3
Com respeito, você precisa reler a pergunta.
#Rocknoc #
A pergunta é "Como saber quantos anos uma página tem?" Por favor, siga o meu link e você verá que a resposta é boa. Obrigado por ler isso.
1813 Pascut
3
Você não está lendo a pergunta. Você está lendo o título. O caminho de volta à máquina não responde à pergunta.
#Rocknoc #
Você está certo, eu editei a minha pergunta ..
Pascut
11
A máquina Wayback mantém o controle da página no domínio. Não é útil comparar datas entre páginas específicas. Estou procurando meios precisos para saber qual foi publicado primeiro.
Renan