Estou usando o seguinte arquivo robots.txt para um site: O objetivo é permitir que o googlebot e o bingbot acessem o site, exceto a página, /bedven/bedrijf/*
e impeçam todos os outros bots de rastrearem o site.
User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: *
Disallow: /
A última regra User-agent: * Disallow: /
proíbe o rastreamento de todos os bots de todas as páginas do site?
web-crawlers
robots.txt
Konsole
fonte
fonte
robots.txt
de qualquer maneirarobots.txt
, ou pelo menos aDisallow: /
regra. Se seu site pessoal está sendo martelado, porque um programador de bots nunca considerou que o servidor pode ser um Raspberry Pi na extremidade errada de uma conexão de 256 kbit, uma exclusão geral como essa é útil.Respostas:
O último registro (iniciado por
User-agent: *
) será seguido por todos os robôs educados que não se identificam como "googlebot", "google", "bingbot" ou "bing".E sim, isso significa que eles não podem rastrear nada.
Você pode querer omitir o
*
no/bedven/bedrijf/*
.Na especificação robots.txt original,
*
não tem significado especial, é apenas um personagem como outro qualquer. Portanto, isso não permitiria o rastreamento de páginas que literalmente tenham o caractere*
em seu URL.Embora o Google não siga a especificação robots.txt a esse respeito, porque eles usam
*
como curinga para "qualquer sequência de caracteres", não é necessário para eles neste caso:/bedven/bedrijf/*
e/bedven/bedrijf/
significaria exatamente o mesmo: bloqueie todos os URLs cujo caminho começa com/bedven/bedrijf/
.E, finalmente, você pode reduzir seu robots.txt para dois registros, porque um registro pode ter várias
User-agent
linhas :fonte
Bots, especialmente os ruins, podem ignorar o arquivo robots.txt. Portanto, não importa o que está escrito lá, alguns bots podem rastrear seu site.
fonte