Googlebot enviando milhares de solicitações ao nosso localizador de mapas e usando a cota da API

10

Temos uma página de localizador de lojas no site de nossos clientes. O usuário final digita seu código postal e um raio de pesquisa e exibimos resultados em um mapa do Google.

Recentemente, começamos a perceber que o site estava atingindo o limite de busca gratuita de mapas (aproximadamente 25.000 por 24 horas) sem um aumento notável no tráfego geral. Ativei alguns logs adicionais para tentar descobrir qual era o problema.

Acontece que o Googlebot está realizando milhares de pesquisas neste mapa. Esta é uma pequena amostra:

2017-07-09 23: 56: 22,719 [7] INFO ShopLanding - [Tópico 41] Google Maps: G23 pesquisado recebido OK de 66.249.66.221
2017-07-09 23: 56: 35.469 [7] INFO ShopLanding - [Tópico 10] Google Maps: CA6 pesquisado recebido OK de 66.249.66.221
2017-07-09 23: 57: 24,563 [7] INFO ShopLanding - [Tópico 48] Google Maps: pesquisado BN14 recebido OK de 66.249.66.223
2017-07-09 23: 58: 00,970 [7] INFO ShopLanding - [Tópico 42] Google Maps: CB4 pesquisado recebido OK de 66.249.66.221
2017-07-09 23: 58: 13,064 [7] INFO ShopLanding - [Tópico 54] Google Maps: DY9 pesquisado recebido OK de 66.249.66.221
2017-07-09 23: 59: 18,722 [7] INFO ShopLanding - [Tópico 59] Google Maps: TS3 pesquisado recebido OK de 66.249.66.223
2017-07-09 23: 59: 53,223 [7] INFO ShopLanding - [Tópico 49] Google Maps: S45 pesquisado recebido OK de 66.249.66.221

Existe uma maneira de impedir o Google de enviar tantas solicitações? Isso está consumindo uma proporção significativa do subsídio gratuito. Pesquisas legítimas parecem estar abaixo de 200 por dia.

EDITAR

O site é criado no C # ASP.NET. A pesquisa da loja está usando POST, o URL não muda no envio. Posso postar uma amostra dos logs do IIS amanhã de manhã para confirmar esse comportamento.

Burgi
fonte
Os itens que o Googlebot está pesquisando têm algum significado? "G23" e "CA6" não significam nada para mim. O Googlebot geralmente não envia dados aleatórios para formulários. Geralmente, apenas rastreia opções suspensas, dados pré-preenchidos ou links de consulta. Esses valores estão no site em algum lugar como uma lista? Além disso, como são seus URLs para essas solicitações?
Stephen Ostermiller
@StephenOstermiller, são códigos postais parciais do Reino Unido, especificamente o identificador do distrito. Estes devem ser POSTpedidos para AJAX, embora eu verifique os logs do IIS.
Burgi
Além: Que "pesquisa gratuita de mapa" é essa?
MrWhite
11
@SamWeaver, o IP é resolvido como o bot do Google e a entrada de log do IIS correspondente possui o Googlebot UserAgent. É certo que ambos podem ser falsificados.
Burgi
11
Seu localizador de lojas usa a string de consulta (solicitação GET)? Qual é a estrutura de URL aproximada da sua página de localização de loja, ela muda (cadeia de consulta) com a pesquisa do usuário? Se você puder explicar o lado funcional / técnico mais detalhadamente, ele poderá ser respondido de uma maneira mais eficaz.
TopQnA

Respostas:

11

Para impedir a pesquisa do googlebot por googlemaps, coloque um arquivo nomeado robots.txtna raiz do seu domínio. por exemplo, https://www.wikipedia.org/robots.txt

Exemplo de robots.txt:

User-agent: Googlebot
Disallow: /search-store/

Onde / search-store / é a página que envia a solicitação ao google maps.

Se for algo diferente do Googlebot, tente desativar todos os rastreamentos para esta página com:

User-agent: *
Disallow: /search-store/

Observe que ele não irá parar de comportar scripts que ignoram o robots.txt.

satibel
fonte
10
Observe que você não deseja que o Google e outros mecanismos de pesquisa mantenham essas páginas de qualquer maneira!
Ari Davidow
11
Não tenho certeza se o bloqueio de todo o repositório de pesquisa é a opção correta, talvez seja necessário entender a sequência de consultas etc. Ou seja, deixe o Google ler, mas não envie muitas solicitações. Bloquear todo o repositório de pesquisa deve ser a última opção.
TopQnA
A pesquisa com limite de taxa pode ser outra opção, digamos que após 25 pesquisas, você precisa esfriar por uma hora entre cada pesquisa. Pararia bots e pessoas nefastas, mas não usuários regulares.
satibel 11/07
Se a página for apenas para pesquisar a localização de uma loja, duvido que seja útil indexá-la em primeiro lugar. Isso dependeria da estrutura do site. Além disso, o robots.txt é mais fácil / rápido (portanto mais barato) de implementar como uma solução rápida do que levar algumas horas para o limite da taxa. @TopQnA
satibel
Bem, a localização da loja é muito importante para o usuário e a maioria das pessoas pesquisa uma loja com referência à localização no Google e, se o localizador da loja puder gerar um mapa com informações úteis com URL exclusivo para cada loja, seria muito mais útil para o usuário. E é por isso que o bloqueio deve ser a última opção.
TopQnA