Como o Googlebot encontra URLs visíveis apenas para usuários autenticados?

12

Aqui está um dos meus clientes, executando alguma ação depois de fazer login na conta dele. O token exclusivo é simplesmente um ID do usuário criptografado + registro de data e hora.

94.254.xxx.xxx - - [02 / Jul / 2011: 22: 25: 46 +0200] "GET / alguma ação / token exclusivo-123abc HTTP / 1.1" 200 410 "-" "Mozilla / 5.0 (compatível; MSIE 9.0; Windows NT 6.1; Trident / 5.0) "

Agora, o Googlebot descobriu esse link exclusivo e tentou acessar exatamente o mesmo URL uma semana depois.

66.249.71.179 - - [10 / Jul / 2011: 09: 56: 01 +0200] "GET / alguma ação / token exclusivo-123abc HTTP / 1.1" 302 - "-" "Mozilla / 5.0 (compatível; Googlebot / 2.1; + http: //www.google.com/bot.html) "

(o código de status é 302 porque o token expirou)


Permitam-me enfatizar que este é um URL único que foi visível exatamente uma vez, por apenas 2 segundos, antes que o usuário clicasse nele e continuasse a visitar essa página. Não foi enviado por email ou publicado em nenhum lugar público.

O que está acontecendo aqui, como é possível que o Google tenha encontrado esse URL exclusivo?

Martin
fonte

Respostas:

6

É difícil dizer com certeza, mas aqui estão os cenários prováveis:

  • O usuário possui uma barra de ferramentas ou extensão do navegador instalada que relata os URLs que visita no Google.

  • Alguém vinculado a esse URL e o Google o encontrou rastreando a página com esse link.

John Conde
fonte
Se você está falando sobre a Barra de Ferramentas Google, só envia URLs de volta ao Google, caso você ative o recurso "PageRank", mas nunca usamos esses dados para descobrir novos URLs. Se sobre alguma outra barra de ferramentas lançada por nós, entre em contato.
methode 12/07
5

Acabei de perceber que o usuário deve ter encontrado um link de saída nesta página autenticada e, em seguida, vazou o URL privado como Refererao clicar em outro site. Esta é a única explicação possível e deveria realmente ter sido óbvia desde o início.

Uma vez vazado, o URL privado pode ter sido exposto ao Google de várias maneiras, por exemplo, o site de destino pode ter publicado seus logs de acesso publicamente. Nota: nenhum dos links de saída estava usando o Google Analytics; portanto, isso não indica que o Googlebot está usando URLs de referência do Analytics.

Lição aprendida: nunca coloque dados confidenciais em URLs, a menos que você use https; nesse caso, o navegador ficaria Referervazio.

Martin
fonte
1
Você está certo: colocar dados confidenciais em URLs pode ser perigoso. Sempre que possível, você deve passar IDs de usuário únicos entre páginas usando solicitações POST (que não enviam variáveis ​​como parte da URL, como solicitações GET) ou com variáveis ​​de cookie / sessão.
1276 Nick