Como o Google conseguiu rastrear minhas 403 páginas?

10

Eu tinha alguns arquivos particulares em um diretório na pasta da minha escola. Você pode ver que os arquivos existiam acessando myschool.edu/myusername/myfolder, mas tentando acessar os arquivos por meio de myschool.edu/myusername/myfolder/myfile.html retorna um erro 403.

E, no entanto, o Google de alguma forma conseguiu pegar o conteúdo desses arquivos particulares e armazená-los em seu cache! Como isso é possível? [Desde então, removi esses arquivos, por isso estou curioso para saber como o Google conseguiu fazer isso.]

grautur
fonte
2
Isto pertence aos Webmasters
RobertPitt 4/10/10

Respostas:

5

O motivo mais provável é que as páginas não retornarão um cabeçalho 403.

Você pode verificar isso usando a barra de ferramentas do desenvolvedor da Web no Firefox ou Chrome. A ferramenta está localizada em "Informações" -> "Exibir cabeçalhos de resposta".

Além disso, a maneira como eu crio minhas páginas de erro é:

  1. Eu crio uma página de erro fictícia. Digamos 403.php .
  2. Eu crio uma página de erro real. Por exemplo error403.php .
  3. Na página de erro fictício, coloquei o seguinte código: <?php header("Location: /error403.php",TRUE,301); ?>
  4. No meu .htaccess, coloquei o seguinte:

    Options -Indexes

    ErrorDocument 403 /403.php

Isso adiciona todos os redirecionamentos de maneira adequada e garante que eu esteja obtendo suco das minhas páginas de erro.

Na verdade, isso pode ser estendido de uma maneira extremamente interessante se o site tiver um mecanismo de pesquisa que use solicitações GET.

Vergil Penkov
fonte