Depois de escrever vários bots e ver a enorme quantidade de bots aleatórios que rastreiam um site, eu me pergunto como webmaster, o que realmente vale a pena incluir em um site?
Meu primeiro pensamento é que permitir bots no site pode potencialmente trazer tráfego real para ele. Existe algum motivo para permitir que os bots que não são conhecidos enviem tráfego real para um site, e como você identifica esses "bons" bots?
Respostas:
No âmbito dos bots normais, tudo depende do que você aprecia e somente você pode decidir isso. Claro que existem Google, Bing / MSN / Yahoo !, Baidu e Yandex. Estes são os principais motores de busca. Existem também os vários sites de SEO e backlink. Certo ou errado, permito que alguns dos grandes tenham acesso ao meu site, mas geralmente são sites inúteis. Bloco o archive.org não apenas no robots.txt, mas por nome de domínio e endereço IP. Isso ocorre porque eles ignoram o robots.txt em grande escala! Isso é algo que você precisa sentir. Não se deixe enganar pelos nomes dos agentes. Muitas vezes, eles são forjados por pessoas más. Atualmente, estou recebendo milhares de solicitações de páginas de fontes que alegam ser o Baidu, mas não o são. Conheça essas aranhas por nomes de domínio e blocos de endereços IP e aprenda a lidar com elas nesse nível. Os bons obedecem ao robots.txt.
Mas devo avisá-lo, há MUITOS bots furtivos, bots não autorizados, raspadores e assim por diante que você desejará pesquisar na análise de logs com frequência e bloquear. Este 5uck5! Mas tem de ser feito. A maior ameaça deles atualmente são os links de baixa qualidade para o seu site. Meu código de segurança anti-bot atualizado que implementei este ano eliminou 7700 links de baixa qualidade automaticamente. Obviamente, meu código ainda precisa funcionar, mas você entendeu. Os bots ruins ainda roubam o potencial do site.
Não demorará muito para você pegar o jeito.
fonte
Eu tive problemas com os bots do Baidu que diminuíam a velocidade do servidor enquanto o mecanismo de pesquisa não estava enviando quase nenhum tráfego. Esses bots não respeitam o arquivo robots.txt; portanto, para bloquear os bots Baidu, basta colar o seguinte no arquivo htccess.
Também tive problemas com o rastreamento de aranhas do Bing / Microsoft muito rápido, ao contrário do Baidu, eles respeitam o arquivo robots.txt;
fonte