É possível diminuir a frequência de rastreamento do Baiduspider?

18

Muito foi feito com a frequência de rastreamento de aranhas do Baidu. É verdade: "Baiduspider rasteja como um louco".

Eu experimentei esse fenômeno em sites com os quais trabalho. Em pelo menos um caso, descobri que o Baiduspider rastreia na mesma frequência do Googlebot, apesar do Baidu fornecer cerca de 0,1% do tráfego do Google.

Gostaria de manter essas visitas no meu site, tão poucas quanto elas (talvez um dia elas cresçam?), Mas não posso justificar permitir uma carga tão pesada no meu servidor.

A resposta aceita à pergunta vinculada acima sugere que as Ferramentas do Google para webmasters do Baidu oferecem a oportunidade de limitar a taxa de rastreamento, mas hesito em abrir a lata de worms (somente em chinês).

Alguém tem alguma experiência em limitar a taxa de rastreamento do Baiduspider com o BWT? Existe outra maneira de limitar essa carga?

samthebrand
fonte

Respostas:

11

Ótima pergunta, e muitos webmasters podem estar interessados, já que o Baidu spider é notoriamente agressivo e pode zapear recursos de servidores ...

Conforme indicado nas notícias da Pesquisa na web do Baidu , o spider do Baidu não suporta a configuração de notificação de atraso de rastreamento e exige que você se registre e verifique seu site com a plataforma Baidu Webmaster Tools, conforme indicado aqui em seu site. Essa parece ser a única opção para controlar a frequência de rastreamento diretamente com o Baidu.

O problema é que outros bots de spam usam os agentes de usuário do Baidu (listados aqui no número 2) para criar o arsenal do seu site, conforme indicado nas perguntas frequentes aqui no número 4. Portanto, solicitar uma taxa de rastreamento mais lenta com o Baidu pode não resolver tudo.

Portanto, se você decidir usar as Ferramentas do Google para webmasters do Baidu, talvez seja aconselhável comparar seus agentes de usuário com os IP que estão associados a eles usando um recurso como o banco de dados de bots versus navegadores ou usando uma pesquisa DNS reversa

As únicas outras opções são bloquear todos os agentes do usuário do Baidu e, assim, sacrificar o tráfego potencial do Baidu, ou tentar limitar solicitações excessivas usando algo como mod_qos para o Apache, que afirma gerenciar:

  • O número máximo de solicitações simultâneas para um local / recurso (URL) ou host virtual.
  • Limitação da largura de banda, como o número máximo permitido de solicitações por segundo para um URL ou o máximo / mínimo de kbytes baixados por segundo.
  • Limita o número de eventos de solicitação por segundo (condições especiais de solicitação).
  • Também pode "detectar" pessoas muito importantes (VIP) que podem acessar o servidor da web sem ou com menos restrições.
  • Linha de solicitação genérica e filtro de cabeçalho para negar operações não autorizadas. Solicitar limitação e filtragem de dados do corpo (requer mod_parp).
  • Limitações no nível da conexão TCP, por exemplo, o número máximo de conexões permitidas de um único endereço de origem IP ou controle dinâmico de manutenção.
  • Prefere endereços IP conhecidos quando o servidor fica sem conexões TCP livres.

Não encontrei experiências relatadas com as Ferramentas do Google para webmasters do Baidu, que são lentas para carregar e têm problemas de tradução (sem versão em inglês). Isso pode ser útil, mas com base em opiniões, é claro.

dan
fonte
11
Isso é realmente útil @ Dan. Experimentar algumas dessas soluções (as Ferramentas para webmasters do Baidu são uma verdadeira dor de cabeça.)
10133 Samthebrand
11
Obrigado! Ótimo - atualizarei isso se encontrar outras opções também. Esta pergunta reflete muitas frustrações dos webmasters com bots agressivos e preocupações com a interação com eles (por exemplo, Ferramentas para webmasters do Baidu). Esperamos que os bots legítimos levem isso em consideração e melhores ferramentas / opções estejam disponíveis.
dan
@samthebrand e dan - por favor, reporte! Você encontrou outras soluções recomendadas?
Lazysoundsystem
5

Depois de muita pesquisa e experimentação, finalmente cheguei ao ponto e configurei uma conta das Ferramentas para webmasters do Baidu. É bastante simples de usar quando armado com o Google Translate em outra janela. Pode ser necessário ativar o firebug para poder copiar e colar texto em chinês de botões que você não pode capturar no modo normal do navegador.

Após a configuração, é necessário aguardar alguns dias para que os dados de rastreamento sejam exibidos e, em seguida, você pode personalizar a taxa de rastreamento. Ele aparece em uma seção chamada "Pressão", que você deve conseguir com este URL:
http://zhanzhang.baidu.com/pressure/adjust?site=http%3A%2F%2Fwww.yourURL.com%2F
Observe que você só poderá usar esse URL se tiver uma configuração de conta das Ferramentas para webmasters do Baidu e tiver associado o URL do seu site à sua conta do site em questão). Aqui você verá um controle deslizante com sua taxa de rastreamento atual no centro (no meu caso, 12676 solicitações por dia. Deslize-o para a esquerda para reduzir a taxa de rastreamento.

Ainda não tenho idéia se realmente respeita sua solicitação. Emite um aviso que diz algo parecido com isto. "Recomendamos que você use a taxa de rastreamento padrão do Baidu do site. Somente se o seu site tiver problemas com o rastreamento, use esta ferramenta para ajustá-lo. Para manter o rastreamento normal do site, o Baidu levará em consideração o seu ajuste da taxa de rastreamento. condições do site e, portanto, não podemos garantir o ajuste de acordo com sua solicitação ".

user35703
fonte
11
Tenho certeza de que não sou o único que gostaria de receber uma atualização sobre isso - isso respeita a solicitação? Você recomendaria criar uma conta?
Lazysoundsystem
Apenas atualizei o URL direto para a página de ajuste da frequência de rastreamento, pois ele está mais profundamente enterrado nas Ferramentas para webmasters agora (não no menu mais). Traduz Google faz com que seja muito difícil de encontrar devido à confundindo traduções ;-)
odony
-1

Sim, você pode usar o Crawl-delayparâmetro no robots.txt para definir o número de segundos a aguardar entre solicitações sucessivas para o mesmo servidor.

User-agent: Baiduspider
Crawl-delay: 100

A primeira linha é dizer apenas ao rastreador do Baidu Web para honrar o comando. A segunda linha é o tempo de espera em segundos entre as solicitações ao servidor. Você pode adicionar o tempo que quiser para suas necessidades.

Você precisará adicionar esses comandos ao seu arquivo robots.txt existente . Se você ainda não possui um arquivo robots.txt , adicione o código acima a um arquivo de texto, salve o arquivo como robots.txt e faça o upload na pasta raiz do seu site, para que ele apareça no endereço abaixo:

www.examplesite.com/robots.txt
Máx.
fonte
2
O Baiduspider não suporta Atraso de rastreamento. Veja aqui .
samthebrand
Opa, já tinha visto em alguns sites o arquivo robots.txt, então assumimos que sim! Como vai esse ditado ?!
Max