Como encontro quando um URL foi indexado pela primeira vez pelo Google?

16

Como descubro quando um URL específico foi indexado pela primeira vez pelo Google? Prefiro uma solução que funcione mesmo para os URLs dos concorrentes que não são de minha propriedade.

matcheek
fonte
1
É bem possível que a resposta seja "não". O Google pode nem armazenar essas informações (já que não há um motivo específico para isso) ou, mesmo que o façam, elas não podem expô-las a terceiros.
Ilmari Karonen
1
Como outros já mencionaram, você não pode obter essas informações. Se você tiver acesso aos logs do servidor, poderá ver quando ele foi rastreado pela primeira vez, mas mesmo isso não significa que foi indexado.
John Mueller

Respostas:

15

Para saber a idade de um URL, você pode seguir este link substituindo www.example.compelo URL que deseja:

https://www.google.com/search?tbs=cdr%3A1%2Ccd_min%3A1%2F1%2F2000&q=site%3Ahttp%3A%2F%2Fwww.example.com&safe=active&gws_rd=ssl

Por exemplo, eis o resultado do Google para o site Meta do Stack Overflow : insira a descrição da imagem aqui

Caso contrário, a máquina Wayback também é uma boa solução, mas menos precisa da minha experiência.

Zistoloen
fonte
3
Esse recurso do Google também está disponível em inglês? Você vinculou à versão francesa.
Stephen Ostermiller
1
@StephenOstermiller Basta alterar o tld de .frpara .com.
precisa saber é o seguinte
2
@ Zistoloen +1 pela sua resposta, mas tenho dúvidas na sua consulta. Como você disse , pesquisei www.stackexchange.com usando sua consulta de exemplo, mas ela não está mostrando nenhum resultado. Pesquisei removendo wwwtambém. No momento, ele mostra o resultado da data, data Dec 1, 2014muito recente que não pode ter a idade do URL. Estou pesquisando incorretamente? ou falta alguma coisa?
Sathiya Kumar
2
Eu "roubei" esta resposta e a adicionei à minha resposta com uma explicação melhor. Este é um ótimo truque, Zistoloen.
Stephen Ostermiller
6
@ Stephen & Zistoloen: Geralmente, essa não é a data em que a página foi indexada pela primeira vez pelo Google. Com base em alguns testes, a data mostrada por esse método parece ser extraída do conteúdo da página (se o Google achar que algo parecido com uma data "publicada em" ou "modificada pela última vez") ou, se não houver, data é encontrada no conteúdo, com base na data em que o Google observou pela última vez uma alteração (substancial?) na página. Obviamente, se a página nunca foi alterada após sua primeira publicação, isso pode ser o mesmo que a data de publicação, mas não há garantia disso.
Ilmari Karonen
8

Zistoloen encontrou uma maneira de o Google exibir a data em que indexou o conteúdo da página pela primeira vez. Também estou adicionando à minha resposta, porque acho que posso explicar mais claramente.

  1. Pesquise no Google algo que exiba a página que você deseja como resultado
  2. Use "Ferramentas de pesquisa"
  3. Selecione "Intervalo personalizado ..." no menu suspenso "A qualquer momento"
  4. Coloque um período grande como 1/1/1900 a 1/1/2020

O Google mostrará a data em que descobriu o conteúdo que está na página no resultado da pesquisa.

primeiro indexado

Se a página for atualizada com novo conteúdo, o Google também atualizará esta data. Portanto, é mais uma data de "indexação inicial deste conteúdo" em vez de uma data de "indexação inicial deste URL".


O cache do Google para uma página mostra quando a página foi indexada pela última vez. Você pode ver que a página inicial do Stack Exchange foi indexada pela última vez hoje:

insira a descrição da imagem aqui


Outra opção é usar a máquina Wayback do Internet Archive . Isso mostra como era uma página no passado. Você pode descobrir quando as páginas foram publicadas pela primeira vez. O Google e o Internet Archive rastreiam e usam a página logo após sua primeira publicação.

Stephen Ostermiller
fonte
1
Sua primeira opção fornecerá o resultado exato para todos os URLs? Eu procurei por bing.com como você explicou, mas não obtendo a primeira data indexada de bing.com. Desculpe se estou errado?
Sathiya Kumar
1
Parece ser preciso, desde que o conteúdo da página não tenha sido alterado. O Google pode redefinir essa data se a página for revisada. Minha página inicial está listada como 1º de fevereiro de 2002, embora uma página interna esteja listada como 1º de fevereiro de 2001. A página inicial foi redesenhada nessa época, enquanto a página interna não mudou substancialmente desde 2001.
Stephen Ostermiller
@SathiyaKumar O Bing.com fornece a data em 19 de março de 2014 para mim usando esse método. Observe que qualquer coisa que não seja indexada pelo Google (via robots.txt ou de outra forma) obviamente não será mostrada dessa maneira.
Thebluefish
4

Pode não haver maneira de descobrir quando uma página da web arbitrária foi indexada pela primeira vez pelo Google - certamente não conheço nenhuma maneira de fazer isso. É possível que o Google simplesmente não armazene essas informações, pois não há motivo real para isso. Além disso, mesmo que armazenem essas informações, elas realmente não têm nenhuma razão específica para disponibilizá-las gratuitamente a terceiros.

(Se for sua própria página e você tiver acesso aos registros de acesso de servidor da web antigos, é fácil - basta pesquisar nos registros a primeira visita do Googlebot a essa página. Mas, caso contrário, pode não haver como saber com certeza.)


De qualquer forma, o método descrito por Zistoloen e Stephen Ostermiller em suas respostas geralmente não revela a data em que um URL específico foi indexado pela primeira vez pelo Google. Em vez disso, mostra a data em que o Google pensa que o conteúdo no URL foi publicado ou atualizado pela última vez e geralmente é baseado nas tentativas mais ou menos confiáveis ​​do Google de "farejar" datas do próprio conteúdo da página.

Em este vídeo , Matt Cutts, do Google toca brevemente sobre como estas datas são escolhidos. Por conveniência, transcrevi a parte relevante do vídeo (aproximadamente de 2:09 a 2:22) abaixo:

"... muitas vezes você vê a data, como a inferimos, ou quando a vimos pela primeira vez, sempre que rastreamos essa página, ou se a encontramos em algum lugar da página, e podemos extrair essa data, você ' verei isso logo no início do snippet ".

Para páginas como postagens de blog, páginas wiki ou perguntas sobre o Stack Exchange, em que o site em execução do software relata automaticamente uma data precisa de criação / modificação na própria página, é provável que a data relatada pelo Google corresponda a ela. Para outros tipos de páginas, no entanto, o farejador de datas do Google precisa trabalhar mais e nem sempre é o correto (o que "certo" pode significar nesse contexto).

Em particular, essas datas são basicamente inúteis para determinar há quanto tempo uma página foi indexada , por dois motivos:

  • Se uma página foi modificada recentemente e a data da modificação é exibida com destaque na página, o Google pode buscá-la como "a data" da página, mesmo que a modificação tenha sido completamente trivial.

    Por exemplo, esta página wiki bastante antiga (que archive.org indexou pela primeira vez em 2003 ) está atualmente com o carimbo de data e data do Google em 10 de novembro de 2014 - a data em que foi editada mais recentemente, conforme mostrado na parte inferior da página. A mudança que aconteceu naquela data? Basta remover um único link da parte inferior da página.

  • Por outro lado, o Google parece feliz em aceitar "datas de publicação" muito antigas se as encontrar na página - mesmo aquelas anteriores ao lançamento da World Wide Web .

    Por exemplo, esta página de um antigo concurso de programação é datada pelo Google até 15 de setembro de 1986 - na verdade, a data do evento descrito na página. Da mesma forma, esta página que documenta uma greve de estudantes em 1970 é datada pelo Google em 10 de maio de 1970 (a data de um dos documentos digitalizados na página) e, ainda mais absurdamente, esta página de manual do Linux é datada pelo Google em 4 de novembro , 1989 (uma data de exemplo aleatória usada na página).

    Você pode encontrar muitos outros exemplos usando a pesquisa de período personalizado descrita por Stephen e Zistoloen, mas configurando o limite superior do intervalo para, por exemplo, 6 de agosto de 1991 .

Ilmari Karonen
fonte
Bem, na sua resposta, você se opôs principalmente às respostas de Stephen e Zistoloen, mas não encontro nenhuma resposta adequada para a pergunta do OP "Como encontro quando um URL foi indexado pela primeira vez pelo Google?" na sua resposta !!
Sathiya Kumar
Pode não haver resposta, exceto "você não pode" ou "ninguém sabe como". Mas você está certo, deixe-me editar isso na minha resposta.
Ilmari Karonen
@llmariKaronen +1 para editar e adicionar a resposta para a pergunta real do OP.
precisa