Permitir apenas que bots do Google e Bing rastreiem um site

10

Estou usando o seguinte arquivo robots.txt para um site: O objetivo é permitir que o googlebot e o bingbot acessem o site, exceto a página, /bedven/bedrijf/*e impeçam todos os outros bots de rastrearem o site.

User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: *
Disallow: /

A última regra User-agent: * Disallow: /proíbe o rastreamento de todos os bots de todas as páginas do site?

Konsole
fonte
11
Toda essa tarefa me preocupa. Existem outros mecanismos de pesquisa e qualquer pessoa que os use não verá seu site. theeword.co.uk/info/search_engine_market diz que 4,99% da Internet não está nos seus mecanismos de pesquisa. Isso é muita gente. Um método melhor seria monitorar seu tráfego e verificar se algum bot realmente causa problemas e depois bloqueá-los especificamente.
GKFX
8
Um bot mau comportamento poderia simplesmente ignorar totalmente a sua robots.txtde qualquer maneira
Nick T
8
Realmente bots maus não se importam com robots.txt
Osvaldo
4
@NickT, no mundo real, não faltam bots mal comportados que se seguem robots.txt, ou pelo menos a Disallow: /regra. Se seu site pessoal está sendo martelado, porque um programador de bots nunca considerou que o servidor pode ser um Raspberry Pi na extremidade errada de uma conexão de 256 kbit, uma exclusão geral como essa é útil.
Mark
2
@Console por quê?
o0 '.

Respostas:

24

O último registro (iniciado por User-agent: *) será seguido por todos os robôs educados que não se identificam como "googlebot", "google", "bingbot" ou "bing".
E sim, isso significa que eles não podem rastrear nada.

Você pode querer omitir o *no /bedven/bedrijf/*.
Na especificação robots.txt original, *não tem significado especial, é apenas um personagem como outro qualquer. Portanto, isso não permitiria o rastreamento de páginas que literalmente tenham o caractere *em seu URL.
Embora o Google não siga a especificação robots.txt a esse respeito, porque eles usam *como curinga para "qualquer sequência de caracteres", não é necessário para eles neste caso: /bedven/bedrijf/*e /bedven/bedrijf/significaria exatamente o mesmo: bloqueie todos os URLs cujo caminho começa com /bedven/bedrijf/.

E, finalmente, você pode reduzir seu robots.txt para dois registros, porque um registro pode ter várias User-agentlinhas :

User-agent: googlebot
User-agent: google
User-agent: bingbot
User-agent: bing
Disallow: /bedven/bedrijf/
Crawl-delay: 10

User-agent: *
Disallow: /
unor
fonte
5
Observe que o Google ignora a diretiva de atraso de rastreamento no robots.txt. Você deve configurá-lo nas Ferramentas do Google para webmasters.
usar o seguinte código
-2

Bots, especialmente os ruins, podem ignorar o arquivo robots.txt. Portanto, não importa o que está escrito lá, alguns bots podem rastrear seu site.

Atis Luguzs
fonte