Podemos usar regex no arquivo robots.txt para bloquear URLs?

23

Eu tenho alguns URLs gerados dinamicamente.

Posso usar regex para bloquear esses URLs em um arquivo robots.txt?

Sudheera Njs
fonte
Também vale a pena definir metatags de robôs nas páginas que você não deseja rastrear / indexar.
Andrew Lott
@AndrewLott No meu caso eu tenho mais de 500 páginas, então eu pensei uso regex em robots.txt ..
Sudheera NJS
Em seguida, uma regra no código do site é provavelmente mais útil.
Andrew Lott

Respostas:

27

Expressões regulares não são válidas no robots.txt, mas o Google, o Bing e alguns outros robôs reconhecem alguma correspondência de padrões.

Digamos que se você deseja bloquear todos os URLs que possuem examplealgum lugar no URL, você pode usar uma entrada curinga *

User-agent: *
Disallow: /*example

Você também pode usar o cifrão $ para especificar que os URLs devem terminar dessa maneira. Portanto, se você deseja bloquear todos os URLs que terminam com example, mas não os URLs que possuem exampleoutro local no URL, você pode usar:

User-agent: *
Disallow: /*example$

Informações mais detalhadas sobre o Google podem ser encontradas aqui: Especificações do Robots.txt , Bing aqui: Como criar um arquivo Robots.txt e há um guia interativo no Moz aqui

Máx.
fonte
Perfeito, * está funcionando bem, Testado na web ferramenta mestre .. Obrigado Max ... :)
Sudheera NJS
Eu recomendaria usar diretivas muito sofisticadas no seu arquivo robots.txt; estes são muito, muito difíceis de depurar mais tarde. Tente manter as coisas o mais simples possível. Lembre-se de que o robots.txt faz distinção entre maiúsculas e minúsculas; portanto, você pode precisar adicionar versões alternativas das diretivas, dependendo do seu site.
John Mueller
seria bom se o regex fosse suportado
SuperUberDuper 14/04