Ótima pergunta, e muitos webmasters podem estar interessados, já que o Baidu spider é notoriamente agressivo e pode zapear recursos de servidores ...
Conforme indicado nas notícias da Pesquisa na web do Baidu , o spider do Baidu não suporta a configuração de notificação de atraso de rastreamento e exige que você se registre e verifique seu site com a plataforma Baidu Webmaster Tools, conforme indicado aqui em seu site. Essa parece ser a única opção para controlar a frequência de rastreamento diretamente com o Baidu.
O problema é que outros bots de spam usam os agentes de usuário do Baidu (listados aqui no número 2) para criar o arsenal do seu site, conforme indicado nas perguntas frequentes aqui no número 4. Portanto, solicitar uma taxa de rastreamento mais lenta com o Baidu pode não resolver tudo.
Portanto, se você decidir usar as Ferramentas do Google para webmasters do Baidu, talvez seja aconselhável comparar seus agentes de usuário com os IP que estão associados a eles usando um recurso como o banco de dados de bots versus navegadores ou usando uma pesquisa DNS reversa
As únicas outras opções são bloquear todos os agentes do usuário do Baidu e, assim, sacrificar o tráfego potencial do Baidu, ou tentar limitar solicitações excessivas usando algo como mod_qos para o Apache, que afirma gerenciar:
- O número máximo de solicitações simultâneas para um local / recurso (URL) ou host virtual.
- Limitação da largura de banda, como o número máximo permitido de solicitações por segundo para um URL ou o máximo / mínimo de kbytes baixados por segundo.
- Limita o número de eventos de solicitação por segundo (condições especiais de solicitação).
- Também pode "detectar" pessoas muito importantes (VIP) que podem acessar o servidor da web sem ou com menos restrições.
- Linha de solicitação genérica e filtro de cabeçalho para negar operações não autorizadas. Solicitar limitação e filtragem de dados do corpo (requer mod_parp).
- Limitações no nível da conexão TCP, por exemplo, o número máximo de conexões permitidas de um único endereço de origem IP ou controle dinâmico de manutenção.
- Prefere endereços IP conhecidos quando o servidor fica sem conexões TCP livres.
Não encontrei experiências relatadas com as Ferramentas do Google para webmasters do Baidu, que são lentas para carregar e têm problemas de tradução (sem versão em inglês). Isso pode ser útil, mas com base em opiniões, é claro.
Depois de muita pesquisa e experimentação, finalmente cheguei ao ponto e configurei uma conta das Ferramentas para webmasters do Baidu. É bastante simples de usar quando armado com o Google Translate em outra janela. Pode ser necessário ativar o firebug para poder copiar e colar texto em chinês de botões que você não pode capturar no modo normal do navegador.
Após a configuração, é necessário aguardar alguns dias para que os dados de rastreamento sejam exibidos e, em seguida, você pode personalizar a taxa de rastreamento. Ele aparece em uma seção chamada "Pressão", que você deve conseguir com este URL:
http://zhanzhang.baidu.com/pressure/adjust?site=http%3A%2F%2Fwww.yourURL.com%2F
Observe que você só poderá usar esse URL se tiver uma configuração de conta das Ferramentas para webmasters do Baidu e tiver associado o URL do seu site à sua conta do site em questão). Aqui você verá um controle deslizante com sua taxa de rastreamento atual no centro (no meu caso, 12676 solicitações por dia. Deslize-o para a esquerda para reduzir a taxa de rastreamento.
Ainda não tenho idéia se realmente respeita sua solicitação. Emite um aviso que diz algo parecido com isto. "Recomendamos que você use a taxa de rastreamento padrão do Baidu do site. Somente se o seu site tiver problemas com o rastreamento, use esta ferramenta para ajustá-lo. Para manter o rastreamento normal do site, o Baidu levará em consideração o seu ajuste da taxa de rastreamento. condições do site e, portanto, não podemos garantir o ajuste de acordo com sua solicitação ".
fonte
Sim, você pode usar o
Crawl-delay
parâmetro no robots.txt para definir o número de segundos a aguardar entre solicitações sucessivas para o mesmo servidor.A primeira linha é dizer apenas ao rastreador do Baidu Web para honrar o comando. A segunda linha é o tempo de espera em segundos entre as solicitações ao servidor. Você pode adicionar o tempo que quiser para suas necessidades.
Você precisará adicionar esses comandos ao seu arquivo robots.txt existente . Se você ainda não possui um arquivo robots.txt , adicione o código acima a um arquivo de texto, salve o arquivo como robots.txt e faça o upload na pasta raiz do seu site, para que ele apareça no endereço abaixo:
fonte