Desde meados de agosto de 2014, vários servidores do Google baixam todos os (muito) grandes arquivos binários no meu site, cerca de uma vez por semana. Todos os IPs são de propriedade do Google e têm a seguinte aparência: google-proxy-66-249-88-199.google.com. Essas são solicitações GET e estão afetando bastante o tráfego do meu servidor.
Antes disso, eu não via tráfego desses IPs de proxy do Google, então isso parece ser relativamente novo. Eu vejo todos os tipos de tráfego de outros IPs do Google, todos eles apenas solicitações googlebot e HEAD.
Eu não ficaria preocupado com isso, exceto que todos esses arquivos estão sendo baixados pelo Google a cada semana, aproximadamente. A largura de banda usada está começando a ficar excessiva.
Especulei que, como muitos desses arquivos são executáveis no Windows, talvez o Google os esteja baixando para executar verificações de malware. Mesmo se isso for verdade, isso realmente precisa acontecer toda semana?
Exemplo de tráfego de IPs de proxy do Google em novembro até agora:
google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB
Atualização 1: esqueci de mencionar que os arquivos em questão já estão no arquivo robots.txt do site. Para processar a configuração do robots.txt, eu também usei o testador do robots.txt nas Ferramentas do Google para webmasters, que mostra que os arquivos estão definitivamente sendo bloqueados para todos os bots do Google, com uma exceção: Adsbot-Google. Também não tenho certeza do que se trata. E pesquisei no Google alguns dos arquivos, e eles NÃO aparecem nos resultados da pesquisa.
Atualização 2: Exemplo: entre 5h12 e 5h18 PST de 17 de novembro, cerca de meia dúzia de IPs (todos os proxy do google) fizeram GETs em todos os arquivos binários em questão, 27 no total. Em 4 de novembro, entre 14:09 e 14h15 PST, esses mesmos IPs fizeram basicamente a mesma coisa.
Atualização 3: neste momento, parece claro que, embora sejam IPs válidos do Google, eles fazem parte do serviço de proxy do Google e não do sistema de rastreamento da Web do Google. Como esses são endereços de proxy, não há como determinar de onde as solicitações GET são realmente originárias ou se são de um local ou de muitos. Com base na natureza esporádica dos GETs, não parece que haja algo nefasto acontecendo; provavelmente é alguém que decide fazer o download de todos os binários enquanto usa o serviço de proxy do Google. Infelizmente, esse serviço parece estar completamente sem documentos, o que não ajuda. Do ponto de vista do administrador do site, os proxies são bastante irritantes. Não quero bloqueá-los, porque eles têm usos legítimos. Mas eles também podem ser mal utilizados.
Respostas:
Eu fiz algumas pesquisas para esta pergunta e encontrei algumas coisas interessantes, como:
1. É um rastreador falso? -> /programming/15840440/google-proxy-is-a-fake-crawler-for-example-google-proxy-66-249-81-131-google-c
Conclusão do usuário:
Sabemos que a visualização ao vivo não está baixando seus arquivos, então vamos para a pergunta 2.
2. Faz parte dos serviços do Google? -> Este proxy do Google é um rastreador falso: google-proxy-66-249-81-131.google.com?
Conclusão:
Meu palpite é o mesmo que acima. Alguém está tentando usar um serviço do Google para acessar seus arquivos, como tradutor.
Se, como você diz, os arquivos já estão sendo bloqueados pelo robots.txt, isso pode ser apenas uma solicitação manual.
EDIT: Para abordar o comentário OP extensivamente:
Os rastreadores podem ignorar o robots.txt? Sim. Aqui está uma lista que eu acho que o Google não faz isso, o que significa que pode haver outros bots usando proxies do Google.
Pode ser um bot ruim? Sim, e por isso eu recomendo:
.htaccess baning:
Esse código pode banir IPs ou agentes do usuário.
Ou use uma armadilha de aranha, apresentada aqui
Eu mantenho minha opinião de que este é um pedido manual.
fonte