Quais robôs realmente valem a pena ser incluídos em um site?

11

Depois de escrever vários bots e ver a enorme quantidade de bots aleatórios que rastreiam um site, eu me pergunto como webmaster, o que realmente vale a pena incluir em um site?

Meu primeiro pensamento é que permitir bots no site pode potencialmente trazer tráfego real para ele. Existe algum motivo para permitir que os bots que não são conhecidos enviem tráfego real para um site, e como você identifica esses "bons" bots?

erros
fonte
1
+1: boa pergunta; no entanto, é difícil responder à sua pergunta porque existem muitos bots.
Zistoloen
@ Zistoloen: Sim, eu sei que é uma pergunta difícil; na verdade, o motivo pelo qual perguntei é porque um mecanismo de busca não importante que conheço que indexou bilhões de páginas estava reclamando sobre como eles não conseguiam acessar grandes quantidades da web porque os sites estavam tentando bloquear mecanismos de busca não importantes.
erros
1
Veja também: en.wikipedia.org/wiki/Spider_trap
Mooing Duck
Obrigado por tomar o seu tempo. Eu mesmo o teria editado se fosse capaz de analisar a pergunta :) #
DisgruntledGoat
@DisgruntledGoat: Sem problemas, obrigado pelas edições!
erros

Respostas:

11

No âmbito dos bots normais, tudo depende do que você aprecia e somente você pode decidir isso. Claro que existem Google, Bing / MSN / Yahoo !, Baidu e Yandex. Estes são os principais motores de busca. Existem também os vários sites de SEO e backlink. Certo ou errado, permito que alguns dos grandes tenham acesso ao meu site, mas geralmente são sites inúteis. Bloco o archive.org não apenas no robots.txt, mas por nome de domínio e endereço IP. Isso ocorre porque eles ignoram o robots.txt em grande escala! Isso é algo que você precisa sentir. Não se deixe enganar pelos nomes dos agentes. Muitas vezes, eles são forjados por pessoas más. Atualmente, estou recebendo milhares de solicitações de páginas de fontes que alegam ser o Baidu, mas não o são. Conheça essas aranhas por nomes de domínio e blocos de endereços IP e aprenda a lidar com elas nesse nível. Os bons obedecem ao robots.txt.

Mas devo avisá-lo, há MUITOS bots furtivos, bots não autorizados, raspadores e assim por diante que você desejará pesquisar na análise de logs com frequência e bloquear. Este 5uck5! Mas tem de ser feito. A maior ameaça deles atualmente são os links de baixa qualidade para o seu site. Meu código de segurança anti-bot atualizado que implementei este ano eliminou 7700 links de baixa qualidade automaticamente. Obviamente, meu código ainda precisa funcionar, mas você entendeu. Os bots ruins ainda roubam o potencial do site.

Não demorará muito para você pegar o jeito.

closetnoc
fonte
1

Eu tive problemas com os bots do Baidu que diminuíam a velocidade do servidor enquanto o mecanismo de pesquisa não estava enviando quase nenhum tráfego. Esses bots não respeitam o arquivo robots.txt; portanto, para bloquear os bots Baidu, basta colar o seguinte no arquivo htccess.

# User-agent: Baiduspider
# Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
# Baiduspider+(+http://www.baidu.com/search/spider.htm)

# IP range
# 180.76

RewriteCond %{REMOTE_ADDR} ^180\.76\. [OR]
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F,L]

Também tive problemas com o rastreamento de aranhas do Bing / Microsoft muito rápido, ao contrário do Baidu, eles respeitam o arquivo robots.txt;

User-agent: bingbot
Crawl-delay: 1

User-agent: msnbot
Crawl-delay: 1
Chaoley
fonte