Por que o Google está baixando binários do meu site e usando largura de banda?

9

Desde meados de agosto de 2014, vários servidores do Google baixam todos os (muito) grandes arquivos binários no meu site, cerca de uma vez por semana. Todos os IPs são de propriedade do Google e têm a seguinte aparência: google-proxy-66-249-88-199.google.com. Essas são solicitações GET e estão afetando bastante o tráfego do meu servidor.

Antes disso, eu não via tráfego desses IPs de proxy do Google, então isso parece ser relativamente novo. Eu vejo todos os tipos de tráfego de outros IPs do Google, todos eles apenas solicitações googlebot e HEAD.

Eu não ficaria preocupado com isso, exceto que todos esses arquivos estão sendo baixados pelo Google a cada semana, aproximadamente. A largura de banda usada está começando a ficar excessiva.

Especulei que, como muitos desses arquivos são executáveis ​​no Windows, talvez o Google os esteja baixando para executar verificações de malware. Mesmo se isso for verdade, isso realmente precisa acontecer toda semana?

Exemplo de tráfego de IPs de proxy do Google em novembro até agora:

google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB

Atualização 1: esqueci de mencionar que os arquivos em questão já estão no arquivo robots.txt do site. Para processar a configuração do robots.txt, eu também usei o testador do robots.txt nas Ferramentas do Google para webmasters, que mostra que os arquivos estão definitivamente sendo bloqueados para todos os bots do Google, com uma exceção: Adsbot-Google. Também não tenho certeza do que se trata. E pesquisei no Google alguns dos arquivos, e eles NÃO aparecem nos resultados da pesquisa.

Atualização 2: Exemplo: entre 5h12 e 5h18 PST de 17 de novembro, cerca de meia dúzia de IPs (todos os proxy do google) fizeram GETs em todos os arquivos binários em questão, 27 no total. Em 4 de novembro, entre 14:09 e 14h15 PST, esses mesmos IPs fizeram basicamente a mesma coisa.

Atualização 3: neste momento, parece claro que, embora sejam IPs válidos do Google, eles fazem parte do serviço de proxy do Google e não do sistema de rastreamento da Web do Google. Como esses são endereços de proxy, não há como determinar de onde as solicitações GET são realmente originárias ou se são de um local ou de muitos. Com base na natureza esporádica dos GETs, não parece que haja algo nefasto acontecendo; provavelmente é alguém que decide fazer o download de todos os binários enquanto usa o serviço de proxy do Google. Infelizmente, esse serviço parece estar completamente sem documentos, o que não ajuda. Do ponto de vista do administrador do site, os proxies são bastante irritantes. Não quero bloqueá-los, porque eles têm usos legítimos. Mas eles também podem ser mal utilizados.

boot13
fonte
Boa pergunta. Eu votei para cima! Você deseja bloqueá-los usando o robots.txt com certeza. Por que o Google está baixando executáveis ​​está além de mim. Sua teoria parece ser boa, mas de alguma forma, por causa da frequência, não tenho certeza. Parece um pouco estranho. Estes parecem ser endereços IP válidos do Googlebot, embora eu não tenha google-proxy-66-102-6-104.google.com na minha lista.
Closetnoc 21/11
Esqueci de mencionar que os arquivos em questão já estão no arquivo robots.txt do site. Consulte a atualização nº 1 acima.
usar o seguinte comando
Você me confundiu. Eu tenho um contratado esperado a qualquer momento agora, então terei que pensar sobre isso. O Google tem feito coisas engraçadas com seus nomes de domínio e alocações de endereços IP e houve alguma sobreposição com vários serviços do Google, incluindo hospedagem e outros onde os bots de pessoas podem aparecer no espaço de endereços IP do Google, no entanto, eu não os vi usando o endereço IP do Googlebot espaço. Eu gostaria que o Google alocasse espaço livre para os vários processos de pesquisa sem sobreposição ou pouca, para que os sistemas de segurança possam confiar adequadamente nesses endereços IP.
precisa saber é o seguinte

Respostas:

3

Eu fiz algumas pesquisas para esta pergunta e encontrei algumas coisas interessantes, como:

1. É um rastreador falso? -> /programming/15840440/google-proxy-is-a-fake-crawler-for-example-google-proxy-66-249-81-131-google-c

Conclusão do usuário:

Esses 'rastreadores' não são rastreadores, mas fazem parte da visualização do site ao vivo usada no mecanismo de pesquisa do Google.

Eu tentei isso, para mostrar um dos meus sites na visualização e, sim, recebi uma mensagem de IP bloqueado.

Se você deseja que os usuários possam visualizar uma visualização do seu site, é necessário aceitar esses 'rastreadores'.

Como outros disseram: "o domínio raiz desse URL é google.com e não pode ser facilmente falsificado".

Conclusão: você pode confiar nesses bot ou rastreadores e é usado para mostrar uma visualização na pesquisa do google.

Sabemos que a visualização ao vivo não está baixando seus arquivos, então vamos para a pergunta 2.

2. Faz parte dos serviços do Google? -> Este proxy do Google é um rastreador falso: google-proxy-66-249-81-131.google.com?

Conclusão:

Acho que algumas pessoas estão usando os serviços do Google (como o Google Translate, Google Mobile, etc.) para acessar sites (bloqueados) (nas escolas etc.), mas também para ataques do DOS e atividades similares.

Meu palpite é o mesmo que acima. Alguém está tentando usar um serviço do Google para acessar seus arquivos, como tradutor.

Se, como você diz, os arquivos já estão sendo bloqueados pelo robots.txt, isso pode ser apenas uma solicitação manual.

EDIT: Para abordar o comentário OP extensivamente:

Os rastreadores podem ignorar o robots.txt? Sim. Aqui está uma lista que eu acho que o Google não faz isso, o que significa que pode haver outros bots usando proxies do Google.

Pode ser um bot ruim? Sim, e por isso eu recomendo:

.htaccess baning:

 RewriteCond %{REMOTE_HOST} ^209.133.111..* [OR]
 RewriteCond %{HTTP_USER_AGENT} Spider [OR]
 RewriteCond %{HTTP_USER_AGENT} Slurp
 RewriteRule ^.*$ X.html [L]

Esse código pode banir IPs ou agentes do usuário.

Ou use uma armadilha de aranha, apresentada aqui

Eu mantenho minha opinião de que este é um pedido manual.

nunorbatista
fonte
Vi essas respostas também, mas elas não pareciam abordar meu problema específico. Você pode estar certo de que o Google Proxy está sendo de alguma forma mal utilizado. Nesse caso, eu provavelmente o bloqueará completamente, o que é meio idiota. Meu entendimento do robots.txt é que o software do rastreador pode optar por ignorá-lo. Os bots amigáveis ​​devem honrá-lo, e a maioria faz, mas proxies são (eu acho) diferentes.
usar o seguinte comando
11
@ boot13 Seja cuidadoso. Estes são endereços IP válidos do Googlebot. Portanto, se você o bloquear, bloqueie-o apenas para esses arquivos. Supondo que você use o Apache, você poderá fazer isso com o .htaccess. Mas isso pode causar outros problemas. Portanto, preste atenção nas Ferramentas do Google para webmasters.
precisa saber é o seguinte
@ boot13 Atualizei minha resposta. Você pode verificar se os acessos são feitos no mesmo dia / hora ou são aleatórios?
Nunorbatista
@ nunorbatista: eles parecem aleatórios. Atualizei minha pergunta algumas vezes.
usar o seguinte comando
@ununorbatista: veja a Atualização # 3 acima. Não é o Googlebot ou qualquer outro rastreador, é o serviço de proxy do Google. Não está relacionado à visualização do site ao vivo do Google. Parece que uma ou mais pessoas baixaram os binários pelo Google Proxy, talvez para contornar um bloqueio ou restrição local. É improvável que a sugestão da armadilha de aranha ajude, já que o tráfego aparentemente não é um bot. Gostaria de impedir que os IPs do Google Proxy acessem a pasta que contém os binários; Vou tentar usar o código htaccess, mas é claro que o downloader sempre pode mudar para outro proxy, por isso pode ser inútil.
boot13