Eu tenho um subdiretório que gostaria de ocultar dos rastreadores da Web do mecanismo de pesquisa.
Uma maneira de fazer isso é usar a robots.txt
no diretório raiz do servidor (a maneira padrão). No entanto, qualquer pessoa que conheça o URL do site e tenha algum conhecimento básico da Web pode acessar o conteúdo do robots.txt e identificar os diretórios não permitidos.
Eu pensei em uma maneira de evitar isso, mas não tenho certeza se vai funcionar.
Let X
Ser o nome do subdiretório que eu quero excluir. Uma maneira de impedir a indexação do X
diretório de rastreadores da Web e, ao mesmo tempo, dificultar a identificação de um X
diretório a partir da raiz robots.txt
, é adicionar robots.txt
o X
diretório ao invés do diretório raiz.
Se eu seguir esta solução, tenho as seguintes perguntas:
- Os rastreadores da Web encontrarão o
robots.txt
subdiretório? (já que umrobots.txt
já existe e também no diretório raiz) Se
robots.txt
estiver noX
subdiretório, devo usar caminhos relativos ou absolutos ?:User-agent: * Disallow: /X/
ou
User-agent: * Disallow: /
fonte
Respostas:
Não, os rastreadores da Web não lerão ou obedecerão a um arquivo robots.txt em um subdiretório. Conforme descrito no site quase oficial robotstxt.org :
ou nas páginas de ajuda do Google ( grifo meu):
De qualquer forma, usar o robots.txt para ocultar páginas confidenciais dos resultados da pesquisa é uma má ideia, pois os mecanismos de pesquisa podem indexar páginas não permitidas no robots.txt se outras páginas apontarem para eles. Ou, conforme descrito na página de ajuda do Google vinculada acima:
Então, o que você deve fazer?
Você pode permitir que os mecanismos de pesquisa rastreiem as páginas (se as encontrarem), mas inclua uma metatag de robôs com o conteúdo
noindex,nofollow
. Isso instruirá os mecanismos de pesquisa a não indexar essas páginas, mesmo que encontrem links para elas, e a não seguir outros links dessas páginas. (Obviamente, isso funcionará apenas para páginas da Web em HTML.)Para recursos não HTML, você pode configurar seu servidor da Web (por exemplo, usando um
.htaccess
arquivo) para enviar o cabeçalho HTTP X-Robots-Tag com o mesmo conteúdo.Você pode configurar a autenticação por senha para proteger as páginas confidenciais. Além de proteger as páginas de visitantes humanos não autorizados, também manterá efetivamente os rastreadores da Web afastados.
fonte
Você
robots.txt
deve estar no diretório raiz e não deve ter outro nome. De acordo com a especificação padrão :fonte
/robots.txt
é o padrão, então como os mecanismos de pesquisa saberiam onde procurar de outra maneira?Você PODE realmente usar um robots.txt em um subdiretório. Atualmente, é assim que tratamos nossos subdomínios de idioma. Usamos um redirecionamento 301 do /robots.txt para um /lang/robots.txt (por subdomínio) e ele está sendo captado corretamente.
Ele também seleciona a estrutura da pasta como a raiz correta ao usar uma barra simples. por exemplo. proibir: /
é tratado como proibindo tudo e não apenas o subdiretório atual no qual o arquivo robots.txt {redirecionado} reside.
Mas, novamente, redirecionamos com um 301 e o colocamos no lugar. Portanto, sem um 301, duvido que algum dia fosse encontrado ...
fonte