Portanto, em todos os sites que não são voltados para pesquisas, aplicamos um arquivo robots.txt (por Como excluir um site dos resultados de pesquisa do Google em tempo real? Ou qualquer outra pergunta semelhante).
No entanto, se os termos de pesquisa forem suficientemente específicos, o próprio domínio poderá ser encontrado por meio de resultados. Um exemplo disso pode ser encontrado aqui . Como você pode ver no link, o próprio domínio pode ser encontrado (o conteúdo não é armazenado em cache, mas o domínio está listado). Além disso, a realização de uma pesquisa site:hyundaidigitalmarketing.com
deve ter 3 resultados. A verificação de backlinks também fornece alguns, mas obviamente não posso impedi-los (o link é permitido no contexto) ou controlar como eles são tratados (não é possível dizer ao host para adicionar nofollow, noindex).
Agora, eu sei que esse é um caso grave, mas os clientes de minhas empresas estão fazendo exatamente isso. De fato, nossos domínios são muito bons, portanto, mesmo pesquisas aparentemente arbitrárias estão gerando resultados relevantes. Agora, tenho que escrever um relatório sobre como / por que isso está acontecendo.
Por isso, recorro à maravilhosa rede Stack Exchange para me ajudar a entender o que está faltando ou a entender o que está acontecendo. Os links para artigos do setor são extremamente úteis, mas tudo o que você pode oferecer é obviamente excelente. Pretendo oferecer as recompensas da melhor maneira possível, para que isso seja uma resposta a ser adotada no futuro.
Edit: Eu abri uma recompensa sobre esta questão, na esperança de obter mais algumas respostas sobre ela. Também forneci os resultados de minha própria pesquisa abaixo.
fonte
Eu acho que Matt Cutts falou sobre isso. Se minha memória está correta, isso tem a ver com vinculação. Aqui está mais: http://www.google.com/support/forum/p/Webmasters/thread?tid=2720810fa226e9c8&hl=en
Você pode removê-los com a ferramenta de remoção do Google.
fonte
noindex, follow
que qualquer PageRank seja distribuído a partir de backlinks que possam ocorrer.site:hyundaidigitalmarketing.com
ou pelos termoshyundai digital marketing
, o domínio em si continuará sendo o primeiro e melhor resultado. Eu preciso evitar isso.links:hyundaidigitalmarketing.com
mostra links para trás. Obviamente, não posso impedir ou controlar os backlinks de formatação E eles podem ser válidos. Se o link para o site causa isso, preciso entender como / por que, para que eu possa explicar isso aos meus superiores. Espero que isso explique minha pergunta um pouco melhor.Com base em minha pesquisa sobre o assunto, descobri que não existe uma maneira 100% garantida de impedir a indexação e o armazenamento em cache de dados, mas você pode se aproximar bastante (assumindo que deseja lidar com o aumento do tráfego de bots). Aqui está como eu interpretei as informações.
Alguém poderia pensar que o arquivo robots.txt é usado para definir informações de robôs em todo o site e metatags são usadas para detalhes específicos da página. Eu acho que o espírito por trás do 2 é exatamente isso, mas esse não é o caso na prática.
Não crie um arquivo robots.txt
Isso funciona com todos os principais provedores de pesquisa para evitar que o conteúdo apareça na SERP, mas não não impedir a indexação. Isso também impede que os robôs rastreiem suas páginas, para que as meta tags de robô (veja abaixo) também sejam ignoradas. Por esse motivo, você não pode usar os 2 juntos e é por isso que, se você deseja impedir a indexação, não deve usar um arquivo robots.txt.
Nota lateral: o Google suporta o uso do
Noindex: /
robots.txt, mas não está documentado (quem sabe quando ele será interrompido) e não se sabe se isso funciona para outras pessoas.Use cabeçalhos HTTP ou tags HTML META para impedir que tudo
Diferentemente do arquivo robots.txt, a metatag robots (e o Cabeçalho HTTP) é amplamente suportada e, surpreendentemente, é rica em recursos. Ele foi projetado para ser definido em cada página, mas a adoção recente do
X-Robots-Tag
cabeçalho facilita a configuração em todo o site. A única desvantagem desse método é que os bots rastrearão seu site. Isso pode ser limitado usandonofollow
, mas nem todos os bots respeitam de verdadenofollow
.Encontrei uma tonelada de informações nesta postagem desatualizada do blog . Seu lançamento original foi em 2007, mas, como muitas informações são recursos mais recentes desde então, parece estar sendo atualizado regularmente.
Em resumo, você deve enviar um cabeçalho HTTP de
X-Robots-Tag: noindex,nofollow,noodp,noydir
. Aqui está o detalhamento do motivo:nofollow
deve limitar o número de páginas rastreadas em seu site, mantendo o tráfego de bot baixo. *noindex
diz aos mecanismos para não indexar a página.noindex
isso seja suficiente. No entanto, descobri que, mesmo que você diga quenoindex
seu site pode ser indexado por causa de outros sites com links para ele. A melhor maneira de impedir links comuns de sites do Y! Directory (noydir
) e Open Directory (noodp
).Isso funcionará em 99% dos casos. Lembre-se de que ainda é possível ser indexado em alguns casos por alguns fornecedores. O Google afirma respeitar totalmente
noindex
, mas tenho minhas suspeitas.Por fim, se você for indexado, ou já tiver sido indexado, a única maneira de obter a descriptografia de suas informações é seguir os vários meios de cada provedor para solicitar a remoção do site / URL. Obviamente, isso significa que você provavelmente desejará monitorar os sites / páginas usando algo como Alertas do Google (obrigado @ Joe).
fonte
Acho que o seu problema básico são os links de volta para o site, pois eles fornecem aos mecanismos de pesquisa um ponto de entrada para o site e os informam. Portanto, embora eles não exibam uma descrição para o site, eles podem mostrar o URL se acharem a melhor correspondência para o resultado.
Leia este artigo com link do post publicado no @joe: Matt Cutts, mantendo o Google fora
O bit principal é:
A pesquisa que você fez também cobre bem as coisas, e as respostas de @john e @joe são relevantes. Incluí um link abaixo, que fornece algumas orientações adicionais sobre o bloqueio de mecanismos de pesquisa. A única maneira de pensar em bloquear completamente o site seria adicionar alguma forma de proteção por senha na frente do site que precisa ser concluída antes que o conteúdo seja exibido.
SEOMoz dicas para não aparecer na pesquisa
fonte