Site de desenvolvimento indexado pelo Google

8

Eu estava desenvolvendo uma nova versão do nosso site em um subdomínio ( dev.oursite.com) eo robots.txt com o Disallowtem substituído em algum momento, de modo que o local foi indexado pelo Google e outros motores de busca. Não está aparecendo com resultados altos nem nada, mas tem todo o conteúdo duplicado e eu prefiro que não esteja lá.

O subdomínio agora se foi e eu tenho um 301 que redireciona cada página de dev.oursite.com/page-namepara http://oursite.com/page-name.

Preciso fazer mais alguma coisa para que o site de desenvolvimento seja removido do Google? Irá desaparecer por si só eventualmente?

Kyle
fonte
4
O Google tem uma página de
perguntas

Respostas:

7

Confira a ferramenta de remoção de URL nas Ferramentas do Google para webmasters. Eu também 404, as páginas em vez de redirecioná-las para removê-las mais rapidamente. No futuro, além do robots.txt, você pode acessar o site rel="canonical"para garantir que o Google saiba que o site de desenvolvimento é apenas uma cópia do site principal e não deve ser indexado.

Joshak
fonte
3

Estou sempre preocupado com a indexação de sites de desenvolvimento. Não confio no robots.txt ou meta noindex, enquanto os uso, também protejo os sites com senha, se não for inconveniente. Mas outra opção é usar .htaccess e negar acesso a todos, exceto os IPs da sua empresa e para colegas de trabalho e desenvolvedores. Basta adicionar a classe C.

Anagio
fonte
11
Esta é a melhor maneira. 403 todos, exceto uma série de endereços ou blocos de endereços. O resto do mundo desaparece e somente aqueles que precisam vê-lo podem. Após o fato para esta pergunta, mas bom saber para o futuro. Você pode precisar de um site dev acessível privada, mesmo após o lançamento para ensaios de atualização, programação personalizada de desenvolvedores de terceiros, etc.
Fiasco Labs
1

Além da resposta correta fornecida por Joshak, gostaria de fornecer uma dica sobre como isso pode ser evitado.

O que fiz para resolver exatamente o mesmo problema é forçar o robot.txt na definição do Apache httpd do vhost. Dessa forma, não há como a "proibição" desaparecer ou ser alterada por qualquer código no site em desenvolvimento. Todas as minhas definições de vhost são mais ou menos assim:

<VirtualHost *:80>
    DocumentRoot /var/www/html/Hosting/test.example.com/newsite.com
    ServerName newsite.com.test.example.com
    ServerAlias *.newsite.com.test.example.com
    UseCanonicalName on
    RewriteEngine on
    RewriteRule ^/robots.txt /var/www/no-indexing-robots.txt [NC,L]
</VirtualHost>
Niels Basjes
fonte