A maioria das minhas visitas são de aranhas baidu. Eu não acho que isso ajuda os mecanismos de pesquisa, então estou pensando em como bloqueá-los. Isso poderia ser feito via iptables? Estou usando o nginx como meu servidor da web.
traffic
nginx
web-crawlers
baidu
Zhianc
fonte
fonte
robots.txt
regras.Respostas:
No seu robots.txt, adicione
fonte
User-agent: *
e os acessos ao baiduspider continuam sendo feitos.Acabei de bloquear com êxito o mecanismo de pesquisa chinês
Baiduspider
de acessar qualquer conteúdo no meu site. Tomei a decisão de fazê-lo devido aos seguintes motivos.Razões para decidir bloquear
Portanto, espero que Su 'e outras pessoas preocupadas com a Xenofobia entendam que essa decisão é uma resposta fria a um número não solicitado de solicitações.
Método
O Baiduspider acessa meu servidor usando muitos endereços IP diferentes, mas esses endereços se enquadram em determinados intervalos. Portanto, meu arquivo .htaccess agora contém as seguintes linhas:
A linha inferior basicamente descreve 4 intervalos de IP nos quais eu sei que o Baiduspider e SOMENTE o Baiduspider acessam meu servidor. Cada um dos 4 intervalos é de 256 endereços consecutivos (total de 1024). Observe que a sintaxe para os intervalos de IP na
deny from...
linha pode ser muito confusa se você não tiver lido os intervalos de CIDR. Apenas entenda que isso0/24
significa que um intervalo de 256 tamanhos começando em 0180.76.5.0/24
significa realmente todos os endereços IP entre180.76.5.0
e180.76.5.255
. Sim, não é particularmente óbvio! Mas se você quiser saber o porquê ou apenas se sentir confuso, acesse http://www.mediawiki.org/wiki/Help:Range_blocksSumário
A internet deve ser livre, aberta e justa. Mas isso significa que organizações como o Baidu aprendem a obedecer ao Robots.txt e são menos gananciosas com a regularidade de seus rastreamentos. Minha solução envolve mexer com configurações muito poderosas; portanto, antes de mexer no arquivo .htaccess, faça backup do original, pronto para reverter se você derrubar o servidor em um incêndio de glória. Prossiga por sua conta e risco.
fonte
Você pode usar a seguinte diretiva
robots.txt
para impedir o rastreamento do seu site.No entanto, os rastreadores podem decidir ignorar o conteúdo do seu robots.txt. Além disso, o arquivo pode ser armazenado em cache pelos mecanismos de pesquisa e leva tempo para que as alterações sejam refletidas.
A abordagem mais eficaz é usar os recursos do servidor. Adicione a seguinte regra ao seu
nginx.conf
arquivo para bloquear o Baidu no nível do servidor.Lembre-se de reiniciar ou recarregar o Nginx para aplicar as alterações.
fonte
Acabamos de decidir bloquear o Baidu, pois a quantidade de tráfego que estava nos dando era muito insignificante para a verificação agressiva. Além disso, agora eles executam um agente que se faz passar por um navegador e inicia o código JavaScript (como o Google Analytics) e estragam nossas estatísticas.
A boa versão está atualizando seu robots.txt com os seguintes
Mas, considerando o que os outros escreveram aqui e eles usando um agente de usuário que oculta sua presença, eu bloquearia completamente seus endereços IP. A seguir, é como é feito no nginx
fonte
Solução Wordpress (não é a melhor, mas ajuda)
Mesmo problema com o Biadu spider, tão agressivo que minha caixa ficou acima de 35 no meu console usando top. Obviamente, mesmo um computador veloz não pode lidar com solicitações externas efetivamente executadas em 35 ....
Rastreei o número de IPs (daquele prédio da Universidade ????) em várias centenas, principalmente com dois useragents)
Consequência direta? Como tenho um servidor em nuvem, tive que atualizar o mesmo para uma memória mais alta para permitir uma resposta decente.
Resposta anterior:
O Baidu parece totalmente incapaz de respeitar a indicação robot.txt.
O que eu fiz:
Instalei o plugin WP-Ban para Wordpress (gratuito) e bani o seguinte:
AGENTES DO USUÁRIO:
Baiduspider+(+http://www.baidu.com/search/spider.htm)
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
Além disso, usando o Wp Super Cache, refiro a página de erro relativa a uma página estática, assim toda a instalação do wordpress não faz / ou pelo menos apenas os usuários banidos verificam a tabela de dados Mysql.
(Esta é uma blablabla padrão do Wordpress, para que todos possam instalar um plug-in do Wordpress possam fazê-lo, pois não é necessário nenhum acesso de codificação ou ftp para este procedimento)
Concordo com todos: a Internet é gratuita, banindo quem ou o que for absolutamente a última coisa que alguém deve fazer, mas hoje o Baidoo me custa US $ 40 a mais por mês, apenas para criar um site escrito em português e tenho algumas dúvidas se houver muitos chineses e visitantes capazes de ler e entender esse idioma.
fonte
Você pode bloquear pelo endereço IP usando o
ngx_http_access_module
de nginx. Para bloquear um único IP, você pode adicionar uma linha ao arquivo conf comoPara bloquear um intervalo, use a notação CIDR , como
12.34.567.1/24
no bloco de sub-rede de 24 bits (de 256 endereços IP), que inclui o endereço IP 12.34.567.1. Para mais detalhes, consulte, por exemplo, esta página .fonte
Use .htaccess com
O "RewriteEngine On" permite que as seguintes linhas sejam analisadas corretamente. O HTTP_USER_AGENT é a linha em que as aranhas estão se identificando. A condição é verdadeira se a linha contiver "MJ12bot" ou "Baidu". NC significa "não diferencia maiúsculas de minúsculas" e você pode encadear condições com OU. A última linha não deve conter "OU" ou a regra não funciona.
O Baidu é particularmente desagradável porque tenta ler as entradas do Wordpress ("fckeditor", "wp-content"), pelas quais não há absolutamente nenhuma razão. O MJ12bot também é um dos maus bichos.
A regra de regravação significa bloquear a aranha com 403 Proibido ([F]) para acessar todos os arquivos (. * É uma expressão regular de qualquer arquivo) e interromper a avaliação ([L]) do htaccess.
fonte
F
bandeira implicaL
, então você não precisa incluir explicitamente aL
bandeira aqui. Além disso, um padrão como^.*Baidu
é o mesmo que simplesmenteBaidu
.