Eu estava desenvolvendo uma nova versão do nosso site em um subdomínio ( dev.oursite.com
) eo robots.txt com o Disallow
tem substituído em algum momento, de modo que o local foi indexado pelo Google e outros motores de busca. Não está aparecendo com resultados altos nem nada, mas tem todo o conteúdo duplicado e eu prefiro que não esteja lá.
O subdomínio agora se foi e eu tenho um 301 que redireciona cada página de dev.oursite.com/page-name
para http://oursite.com/page-name
.
Preciso fazer mais alguma coisa para que o site de desenvolvimento seja removido do Google? Irá desaparecer por si só eventualmente?
Respostas:
Confira a ferramenta de remoção de URL nas Ferramentas do Google para webmasters. Eu também 404, as páginas em vez de redirecioná-las para removê-las mais rapidamente. No futuro, além do robots.txt, você pode acessar o site
rel="canonical"
para garantir que o Google saiba que o site de desenvolvimento é apenas uma cópia do site principal e não deve ser indexado.fonte
Estou sempre preocupado com a indexação de sites de desenvolvimento. Não confio no robots.txt ou
meta noindex
, enquanto os uso, também protejo os sites com senha, se não for inconveniente. Mas outra opção é usar .htaccess e negar acesso a todos, exceto os IPs da sua empresa e para colegas de trabalho e desenvolvedores. Basta adicionar a classe C.fonte
Além da resposta correta fornecida por Joshak, gostaria de fornecer uma dica sobre como isso pode ser evitado.
O que fiz para resolver exatamente o mesmo problema é forçar o robot.txt na definição do Apache httpd do vhost. Dessa forma, não há como a "proibição" desaparecer ou ser alterada por qualquer código no site em desenvolvimento. Todas as minhas definições de vhost são mais ou menos assim:
fonte