Eu pensei que o Google era mais ou menos preciso ao determinar quem postou um texto primeiro e quem copiou. No entanto, quando eu uso a "ferramenta de pesquisa: intervalo personalizado", os resultados são bastante ímpares. Encontrei páginas que datam de 2002 para um site que eu possuía há apenas alguns anos.
Portanto, o Google não é preciso para descobrir quem copiou e quem escreveu o original. O que é?
Se stackexchange.com
foi criado em 2009, como isso é possível? hermeneutics.se
é mais antigo que o estouro de pilha!
google-search
google-index
tools
Renan
fonte
fonte
Respostas:
Pesquisei a resposta para esta pergunta desta maneira: usando o Google, já que este é o exemplo que tenho, como o Google obtém datas de criação e datas modificadas e formatos de data que o Google reconhece. Por favor, entenda que essa informação não existe em apenas algumas páginas e eu tive que descobrir os dados de muitas fontes, algumas das quais parecem não se aplicar diretamente e reuni-las. Em alguns casos, as informações são derivadas de várias fontes e nem sempre são citáveis.
O Google procura datas da página nesta ordem; URL, tag de título, corpo (conteúdo), metatags, cabeçalho de resposta HTTP pelo menos no que diz respeito ao appliance. Em outros parágrafos de outros documentos, nenhuma ordem foi documentada, mas a lista foi discutida e pareceu confirmar a lista. Se você pensar bem, isso reflete a ordem que um mecanismo de pesquisa faria; um - descubra sua página (link) e dois - leia sua página de cima para baixo (título, corpo e metatag), com exceção da metatag (pequenos detalhes) e do cabeçalho de resposta HTTP. Aqui está a lista no que diz respeito ao dispositivo:
https://developers.google.com/search-appliance/documentation/68/admin_crawl/Preparing#docdaterule
Nota: a data de criação é a data em que a página foi solicitada pela primeira vez pelo Google. Na ausência de uma data de criação, a data de criação é usada.
1] Qualquer mecanismo de pesquisa pode solicitar um recurso por meio de uma solicitação HTTP GET e o servidor da Web retorna a data da última modificação no cabeçalho de resposta com o recurso no pacote de dados.
2] Qualquer mecanismo de pesquisa pode solicitar informações de cabeçalho de um recurso por meio de uma solicitação HTTP HEAD e o servidor da Web retorna a data modificada no cabeçalho de resposta sem o recurso no pacote de dados.
3] Qualquer mecanismo de pesquisa pode solicitar se um recurso foi modificado desde uma certa data, solicitando um recurso com um HTTP GET com if-modified-since definido como uma data. Se o recurso tiver sido modificado desde a data definida, o servidor da Web responderá com uma resposta de 200 Ok e retornará o recurso ou, se o recurso não tiver sido modificado desde a data definida, o servidor da Web responderá com um 304 Não Modificado sem retornar o recurso .
O Google faz muitas solicitações usando o método nº 3 para economizar largura de banda. Você os verá nos arquivos de log do servidor da web.
Nota: É possível que um sistema de gerenciamento de conteúdo (CMS) ou outro software não possa fornecer a data adequadamente dentro de um cabeçalho de resposta.
Esses exemplos de datas também vêm da documentação do Google Appliance, mas também existem em outros locais relacionados à pesquisa geral. Tirei esses detalhes da documentação do dispositivo simplesmente porque ele poderia ser recortado e colado como uma lista, onde em outros lugares não era tão elegante.
4] O Google procura uma data no URL. Ele procura os seguintes formatos; AAAAMMDDHH - AAAA - AAAAMM.
5] O Google procura uma data na tag do título. Ele procura os seguintes formatos; AAAAMMDDHH - AAAA - AAAAMM, embora eu suspeite que outros formatos possam ser reconhecidos. Ver abaixo.
6] O Google procura uma data na etiqueta do corpo (conteúdo). Ele procura os seguintes formatos; YYYMMDDHH - YYYYMMDD - YYYYMM - YYYY - DDMMYYYY - YYMMMDD - MMDDYYYY - YYMMDD - DDMMYY - MMDDYY Embora eu suspeite que outros formatos possam ser reconhecidos. Ver abaixo.
Nota: Sabe-se que o Google procura especificamente uma data logo abaixo da primeira
H1
tag. Isso ocorre porque os blogs geralmente colocam datas nesse local.7] O Google procura uma metatag como esta.
<meta http-equiv="last-modified" content="YYYY-MM-DD@hh:mm:ss TMZ" />
Diz-se também que o Google reconhece os seguintes formatos de data.
AAAA-MD - AAAA.MD - AAAA / M / D - MD-AAAA - MDYYYY - M / D / AAAA - AA-MM-DD - AA.MM.DD - AA / MM / DD - WK, D MON, YR - WK, MON D, ANO - D MON, YR - MON AAAA - MON D, ANO - MON AA - AAAA-DM - AAAA.DM - AAAA / D / M - DM-AAAA - DMYYYY - D / M / AAAA - DD-MM-AA - MM-DD-AA - DD / MM / AA - MM / DD / AA - AAAAMMDDHH - AAAAMMDD - AAAAMM - AAAA - DDMMYYYY - MMDDYYYY - AAAMDD - DDMMYY - MMDDYY
A pesquisa que encontrei não respondeu à questão do tempo.
No caso dos exemplos citados, as páginas não fornecem pistas de data, exceto dentro de uma tag span que pode ser ignorada. É possível que o software / servidor da Web SE não possa retornar a criação e as datas modificadas em qualquer cabeçalho de resposta.
Por que e como o Google derivou essas datas é uma boa pergunta que nunca pode ser resolvida. Vou continuar procurando no entanto.
fonte
article.post > div.post-content > h2 > p
nível foi recentemente captada pelo Google e usada para exibir a data: "Última atualização: 7 de outubro de 2018"Se você deseja ver quantos anos tem um domínio, pesquise no Google por wayback machine . Este site é o que você está procurando: http://archive.org/web/ .
Se você deseja detectar plágio, este link o ajudará: http://copyscape.com/signup.php?pro=0&o=f
Além disso, pesquise no Google por "verificador de plágio".
Espero ter ajudado.
fonte