Robots.txt: preciso proibir uma página que não esteja vinculada a nenhum lugar?

12

Existem algumas páginas no meu site que eu quero que o usuário possa visitar apenas se eu fornecer a ele o URL.

Se eu proibir as páginas únicas robots.txt, elas serão visíveis por qualquer pessoa que as veja.

Minha pergunta é: se eu não os vincular de qualquer lugar, ou pelo menos de qualquer página indexada, eles ainda serão alcançados pelos rastreadores de alguma forma?

martjno
fonte

Respostas:

11

Você não deseja que a página apareça nos SERPs ...

Não desabilite o robots.txt. Adicione uma metatag noindex (ou cabeçalho HTTP X-Robots-Tag) às suas páginas.

Como o j0k sugere, suas páginas podem ser encontradas de alguma forma. Relatórios de estatísticas, listagens de diretórios, etc ...

A proibição de robots.txt impede que a página seja rastreada, mas ainda pode ser indexada e pode aparecer como um link somente de URL nos SERPs. Algo como:

Link somente URL nos SERPs do Google

Uma metatag noindex impede que a página apareça nos SERPs - mas o Google deve poder rastrear a página para ver a metatag noindex - para que não possa ser desabilitada no robots.txt!

Se houver algo na página que não deva estar disponível publicamente, as páginas deverão estar protegidas por algum tipo de autenticação.

Sr. White
fonte
Uma coisa a ter em mente é que se isso é realmente algo confidencial, "ocultá-lo" com um URL é uma prática ruim, independentemente do método escolhido. Usar autenticação adequada é realmente importante em um caso como esse.
John Mueller
1
Além disso, os botões de mídia social (Curtir / Compartilhar / + 1 / vários favoritos) também buscam o conteúdo e podem exibir o URL, o título e o snippet de forma pública, mesmo que o URL tenha um índice (ou não seja permitido por robôs) .TXT). A única maneira de impedir isso é usar a autenticação.
John Mueller
2

Bem, acho que você tem um bom rastreador que lê o robots.txt e segue a diretiva. E outro que não segue a diretiva.

E como você planeja fornecer esse URL? Por email, usando o Facebook ou Twitter? Todos esses serviços rastreiam as informações que você envia. O Gmail analisa o e-mail que você recebe para fornecer anúncios. Portanto, seu URL será rastreado de alguma forma.

Algumas pessoas usam a Barra de Ferramentas Google (ou qualquer outra barra de ferramentas do mecanismo de pesquisa). Existe uma opção (marcada por padrão, se bem me lembro) que permite que a barra de ferramentas envie todos os URLs que você visita ao Google. Essa é outra maneira de o Google ver a Web oculta. Portanto, mesmo que você tenha dito à pessoa para não compartilhar o URL, implicitamente ele / ela (graças à barra de ferramentas).

Eu acho que podemos encontrar muitas outras possibilidades.

Você pode adicioná-lo ao robots.txt, mas também fornecer meta extra, como noindex, nofollow, etc.

editar:

A sugestão do w3d sobre o robots.txt me parece boa. Portanto, não o adicione ao robots.txt e forneça a meta tag apropriada.

j0k
fonte
Estou vinculando-os por e-mail. Sim, eu estava planejando fornecer uma meta adequada. Então sua sugestão é adicioná-los aos robôs ou não? Obrigado
martjno 4/12/12
Eu recomendaria adicioná-lo ao robots.txt. Mas a sugestão da w3d mudou minha mente. Não adicione, mas forneça uma meta tag adequada.
J0k
0

Além dos comentários acima, eu também recomendaria a autenticação HTACCESS no mínimo - dessa forma, você pode fornecer às pessoas uma combinação de nome de usuário / senha pela duração de seus direitos para ver as páginas

Se houver algo com problemas de privacidade, você precisará considerar um script de controle de login adequado.

Uma página desprotegida (não importa o quão bem oculta você pense que seja), ela será publicada.

Andrew
fonte