Eu tenho um sub-domínio que não quero ser listado em nenhum resultado de mecanismo de pesquisa. Digamos que eu tenha:
http://www.example.com
http://child.example.com
Como ocultar todos os URLs do child.example.com
domínio que estão sendo exibidos atualmente nos resultados do mecanismo de pesquisa?
search-engines
url
robots.txt
search
noindex
夏 期 劇場
fonte
fonte
noindex
ao índice e outras páginas no sub-domínioO uso de um arquivo robots.txt em seu subdomínio ajudará (e o Google obedecerá a isso), mas outra etapa que você pode executar é especificar com uma conta do Google Webmasters que você não deseja que esse subdomínio seja indexado. Você também pode usar uma metatag em todas as páginas do subdomínio:
Se esse for um site que você está usando apenas para testes internos, limitar a visibilidade a um conjunto especificado de endereços IP no arquivo de hosts virtuais ocultará ainda mais o site.
fonte
meta
tag noindex em todas as páginas, você pode retornar umX-Robots-Tag
cabeçalho de resposta HTTP do servidor para o subdomínio especificado - isso você precisa fazer apenas uma vez.As soluções de Kenzo e Paul são boas, você pode colocar metatags noindex em suas páginas da web e adicionar robots.txt para impedir robôs.
Mas, na minha opinião, a melhor solução é usar a autenticação de senha no seu subdomínio. Essa é a única solução em que você tem certeza de que os robôs podem acessar e indexar seu site. Se você usa o Apache, pode implementar o htpasswd .
fonte
As outras respostas são mais sobre prevenção proativa da indexação de um (sub) domínio (que é principalmente o que você está perguntando na pergunta), em vez de remover ativamente suas páginas dos resultados da pesquisa, o que pode ser mais o que você procura, julgando por sua outra pergunta .
Você ainda precisa bloquear o site no robots.txt e exibir uma tag noindex
meta
(ouX-Robots-Tag
cabeçalho de resposta HTTP), conforme indicado nas outras respostas, mas também precisa bloquear o acesso às suas páginas, retornando um código de status 404 ou 410.Você pode ler mais sobre isso na página de ajuda das Ferramentas do Google para webmasters:
Requisitos para remover o conteúdo
Depois de ter instalado tudo isso, você poderá usar a ferramenta Remover URLs nas Ferramentas do Google para webmasters. No entanto, isso se aplica apenas a URLs individuais, não a um site inteiro, mas é um começo. (O Google afirma que usar o robots.txt, noindex e exibir um 404 são os requisitos para usar a ferramenta de remoção de GWT.)
No entanto, se você ainda deseja que usuários comuns possam acessar o site digitando o URL, é um problema - pois seu conteúdo não está mais disponível. Você poderia fazer a senha, como sugere Zistoloen, no entanto, isso retornará um 403 (Proibido) por padrão, que você precisaria substituir para retornar um 404/410. Você pode disfarçar seu conteúdo, devolvendo um 410 ao Googlebot e permitindo que todos os outros entrem - mas e quanto às pessoas que clicam nos resultados nos SERPs?
Mas se você deseja que o Google remova seu conteúdo o mais rápido possível, remova-o da Internet "Google".
fonte