Quais robôs e aranhas devo bloquear no robots.txt?

14

A fim de:

  1. Aumentar a segurança do meu site
  2. Reduzir os requisitos de largura de banda
  3. Impedir a coleta de endereços de email
DaveC
fonte

Respostas:

17

Nenhum bot que esteja coletando e-mails ou testando vulnerabilidades no seu site respeitará o seu robots.txt. De fato, esses robôs maliciosos examinam o robots.txt para mapear melhor seu site. Se algum ponto você tiver, Disallow:isso será usado para atacar melhor o seu site. Um hacker que está olhando manualmente para o seu site deve gastar tempo extra examinando todos os arquivos / diretórios que você está tentando proibir.

Torre
fonte
3
Ponto interessante. Gostaria de saber se faz sentido adicionar uma página falsa à lista Proibir, cujo único objetivo é capturar esses bots no ato para que possam ser bloqueados automaticamente.
Steven Sudit 9/08/10
5
@ Steven Sudit que não é uma má idéia. Isso seria chamado de pote de mel.
Rook
Sim, isso é exatamente correto, embora eu estivesse pensando mais no truque padrão dos compiladores de diretórios (listas telefônicas, etc.) de adicionar um pequeno número de entradas falsas para detectar roubo por atacado.
Steven Sudit 9/08/10
Se você também usar esse honeypot como tarpit, também perturbará os indexadores ilegítimos. Na verdade, isso é bastante comum para os remetentes de spam - deixe um endereço de email indexável de honeypot que leve a um servidor de email tarpit.
Mark Henderson
@ Farseeker Não vejo problema em punir quem infringir as regras. Embora enganar os spammers com dados incorretos seja uma reviravolta interessante.
Rook
4

O robots.txt não aumenta a segurança do seu site ou impede a coleta de endereços de email. O robots.txt é um guia para os mecanismos de pesquisa pularem seções do seu site. Elas não serão indexadas e devem ser usadas para as seções que você não deseja exibir nos mecanismos de pesquisa públicos.

No entanto, isso não impedirá que outros bots baixem o site inteiro para aumentar a segurança ou impedir a coleta de emails. Para aumentar a segurança, você precisa adicionar autenticação e permitir apenas usuários autenticados além das seções seguras. Para impedir a coleta de endereços de email, não coloque emails em texto sem formatação (ou texto facilmente decifrável) em um site.

Sam
fonte
1

O robots.txt não ajuda na segurança. Qualquer bot que queira fazer algo obscuro irá ignorá-lo de qualquer maneira.

Raio
fonte
0

O arquivo robots.txt serve apenas como uma solicitação para que bots e aranhas deixem certas partes de conteúdo em paz; na verdade, não pode impedir o acesso deles. Os bots "bons" o respeitarão, mas os "ruins" (provavelmente os que você deseja bloquear) o ignorarão e continuarão assim mesmo.

derekerdmann
fonte
-1

Em vez do robots.txt, talvez você precise usar os códigos CAPTCHA.

Steven Sudit
fonte
Os códigos CAPTCHA não têm nada a ver com os rastreadores da Web (que é o endereço do robots.txt).
precisa saber é o seguinte
Isso foi um voto negativo errôneo. O ponto principal é que um rastreador pode ignorar o robots.txt, mas os códigos CAPTCHA irão pelo menos abrandá-lo, se não o bloquearem totalmente. Obrigado por estar errado.
Steven Sudit 12/09/10