Aqui está um dos meus clientes, executando alguma ação depois de fazer login na conta dele. O token exclusivo é simplesmente um ID do usuário criptografado + registro de data e hora.
94.254.xxx.xxx - - [02 / Jul / 2011: 22: 25: 46 +0200] "GET / alguma ação / token exclusivo-123abc HTTP / 1.1" 200 410 "-" "Mozilla / 5.0 (compatível; MSIE 9.0; Windows NT 6.1; Trident / 5.0) "
Agora, o Googlebot descobriu esse link exclusivo e tentou acessar exatamente o mesmo URL uma semana depois.
66.249.71.179 - - [10 / Jul / 2011: 09: 56: 01 +0200] "GET / alguma ação / token exclusivo-123abc HTTP / 1.1" 302 - "-" "Mozilla / 5.0 (compatível; Googlebot / 2.1; + http: //www.google.com/bot.html) "
(o código de status é 302 porque o token expirou)
Permitam-me enfatizar que este é um URL único que foi visível exatamente uma vez, por apenas 2 segundos, antes que o usuário clicasse nele e continuasse a visitar essa página. Não foi enviado por email ou publicado em nenhum lugar público.
O que está acontecendo aqui, como é possível que o Google tenha encontrado esse URL exclusivo?
fonte
Acabei de perceber que o usuário deve ter encontrado um link de saída nesta página autenticada e, em seguida, vazou o URL privado como
Referer
ao clicar em outro site. Esta é a única explicação possível e deveria realmente ter sido óbvia desde o início.Uma vez vazado, o URL privado pode ter sido exposto ao Google de várias maneiras, por exemplo, o site de destino pode ter publicado seus logs de acesso publicamente. Nota: nenhum dos links de saída estava usando o Google Analytics; portanto, isso não indica que o Googlebot está usando URLs de referência do Analytics.
Lição aprendida: nunca coloque dados confidenciais em URLs, a menos que você use https; nesse caso, o navegador ficaria
Referer
vazio.fonte