Eu tinha alguns arquivos particulares em um diretório na pasta da minha escola. Você pode ver que os arquivos existiam acessando myschool.edu/myusername/myfolder, mas tentando acessar os arquivos por meio de myschool.edu/myusername/myfolder/myfile.html retorna um erro 403.
E, no entanto, o Google de alguma forma conseguiu pegar o conteúdo desses arquivos particulares e armazená-los em seu cache! Como isso é possível? [Desde então, removi esses arquivos, por isso estou curioso para saber como o Google conseguiu fazer isso.]
web-crawlers
security
googlebot
grautur
fonte
fonte
Respostas:
O motivo mais provável é que as páginas não retornarão um cabeçalho 403.
Você pode verificar isso usando a barra de ferramentas do desenvolvedor da Web no Firefox ou Chrome. A ferramenta está localizada em "Informações" -> "Exibir cabeçalhos de resposta".
Além disso, a maneira como eu crio minhas páginas de erro é:
<?php header("Location: /error403.php",TRUE,301); ?>
No meu .htaccess, coloquei o seguinte:
Options -Indexes
ErrorDocument 403 /403.php
Isso adiciona todos os redirecionamentos de maneira adequada e garante que eu esteja obtendo suco das minhas páginas de erro.
Na verdade, isso pode ser estendido de uma maneira extremamente interessante se o site tiver um mecanismo de pesquisa que use solicitações GET.
fonte