Os robôs negados pelo domínio ainda estão listados nos resultados da pesquisa

9

Portanto, em todos os sites que não são voltados para pesquisas, aplicamos um arquivo robots.txt (por Como excluir um site dos resultados de pesquisa do Google em tempo real? Ou qualquer outra pergunta semelhante).

No entanto, se os termos de pesquisa forem suficientemente específicos, o próprio domínio poderá ser encontrado por meio de resultados. Um exemplo disso pode ser encontrado aqui . Como você pode ver no link, o próprio domínio pode ser encontrado (o conteúdo não é armazenado em cache, mas o domínio está listado). Além disso, a realização de uma pesquisa site:hyundaidigitalmarketing.comdeve ter 3 resultados. A verificação de backlinks também fornece alguns, mas obviamente não posso impedi-los (o link é permitido no contexto) ou controlar como eles são tratados (não é possível dizer ao host para adicionar nofollow, noindex).

Agora, eu sei que esse é um caso grave, mas os clientes de minhas empresas estão fazendo exatamente isso. De fato, nossos domínios são muito bons, portanto, mesmo pesquisas aparentemente arbitrárias estão gerando resultados relevantes. Agora, tenho que escrever um relatório sobre como / por que isso está acontecendo.

Por isso, recorro à maravilhosa rede Stack Exchange para me ajudar a entender o que está faltando ou a entender o que está acontecendo. Os links para artigos do setor são extremamente úteis, mas tudo o que você pode oferecer é obviamente excelente. Pretendo oferecer as recompensas da melhor maneira possível, para que isso seja uma resposta a ser adotada no futuro.

Edit: Eu abri uma recompensa sobre esta questão, na esperança de obter mais algumas respostas sobre ela. Também forneci os resultados de minha própria pesquisa abaixo.

Kevin Peno
fonte

Respostas:

5

Terei que procurar a fonte dessas informações, mas aparentemente o robots.txt não impedirá necessariamente que uma página seja indexada. Mas o cabeçalho HTTP x-robots-tag aparentemente funciona.

Se você estiver usando o Apache, poderá bloquear páginas em massa usando esta linha em um arquivo .htaccess:

Header set x-robots-tag: noindex

Faça uma tentativa e veja o que acontece.

Editar

(Encontrei uma fonte . Não é a que me lembro, mas funciona).

John Conde
fonte
Olá e obrigado pela resposta. Como isso difere da metatag robots já implementada na saída html do site usado como exemplo acima? Tanto quanto sei, isso serve apenas como um substituto, para que você não precise colocá-lo em todas as páginas.
Kevin Peno
@ Kevin, eles devem ser os mesmos em termos de eficácia. Isso seria mais fácil de gerenciar, como você disse.
John Conde
4

Eu acho que Matt Cutts falou sobre isso. Se minha memória está correta, isso tem a ver com vinculação. Aqui está mais: http://www.google.com/support/forum/p/Webmasters/thread?tid=2720810fa226e9c8&hl=en

Você pode removê-los com a ferramenta de remoção do Google.

Joe
fonte
Você pode ver todos eles em: site: gmpackageguide.com Não há muitos URLs. Suponho que eles estavam no índice antes dos robôs serem proibidos. Eu apenas os removia.
5111 Joe
No futuro, instruiria o pessoal de web design a sempre não incluir nenhum índice, nem seguir na seção principal da página da web. Eu suspeito que o CMS que você está usando pode fazer isso.
5111 Joe
@ Joe - concordo, mas recomendo noindex, followque qualquer PageRank seja distribuído a partir de backlinks que possam ocorrer.
Mike Hudson
@ Joe & @ Mike, Obrigado pela informação. No entanto, acesse o site: hyundaidigitalmarketing.com. Eu mesmo lancei este site há um ano. Inclui um arquivo robots.txt e o cabeçalho da meta. No entanto, como você pode ver no formulário executando uma pesquisa no google com site:hyundaidigitalmarketing.comou pelos termos hyundai digital marketing, o domínio em si continuará sendo o primeiro e melhor resultado. Eu preciso evitar isso.
Kevin Peno
Além disso, uma pesquisa por links:hyundaidigitalmarketing.commostra links para trás. Obviamente, não posso impedir ou controlar os backlinks de formatação E eles podem ser válidos. Se o link para o site causa isso, preciso entender como / por que, para que eu possa explicar isso aos meus superiores. Espero que isso explique minha pergunta um pouco melhor.
Kevin Peno
3

Com base em minha pesquisa sobre o assunto, descobri que não existe uma maneira 100% garantida de impedir a indexação e o armazenamento em cache de dados, mas você pode se aproximar bastante (assumindo que deseja lidar com o aumento do tráfego de bots). Aqui está como eu interpretei as informações.

Alguém poderia pensar que o arquivo robots.txt é usado para definir informações de robôs em todo o site e metatags são usadas para detalhes específicos da página. Eu acho que o espírito por trás do 2 é exatamente isso, mas esse não é o caso na prática.

Não crie um arquivo robots.txt

Isso funciona com todos os principais provedores de pesquisa para evitar que o conteúdo apareça na SERP, mas não não impedir a indexação. Isso também impede que os robôs rastreiem suas páginas, para que as meta tags de robô (veja abaixo) também sejam ignoradas. Por esse motivo, você não pode usar os 2 juntos e é por isso que, se você deseja impedir a indexação, não deve usar um arquivo robots.txt.

Nota lateral: o Google suporta o uso do Noindex: /robots.txt, mas não está documentado (quem sabe quando ele será interrompido) e não se sabe se isso funciona para outras pessoas.

Use cabeçalhos HTTP ou tags HTML META para impedir que tudo

Diferentemente do arquivo robots.txt, a metatag robots (e o Cabeçalho HTTP) é amplamente suportada e, surpreendentemente, é rica em recursos. Ele foi projetado para ser definido em cada página, mas a adoção recente do X-Robots-Tagcabeçalho facilita a configuração em todo o site. A única desvantagem desse método é que os bots rastrearão seu site. Isso pode ser limitado usando nofollow, mas nem todos os bots respeitam de verdade nofollow.

Encontrei uma tonelada de informações nesta postagem desatualizada do blog . Seu lançamento original foi em 2007, mas, como muitas informações são recursos mais recentes desde então, parece estar sendo atualizado regularmente.

Em resumo, você deve enviar um cabeçalho HTTP de X-Robots-Tag: noindex,nofollow,noodp,noydir. Aqui está o detalhamento do motivo:

  • nofollowdeve limitar o número de páginas rastreadas em seu site, mantendo o tráfego de bot baixo. * noindexdiz aos mecanismos para não indexar a página.
  • Agora, você pode supor que noindexisso seja suficiente. No entanto, descobri que, mesmo que você diga que noindexseu site pode ser indexado por causa de outros sites com links para ele. A melhor maneira de impedir links comuns de sites do Y! Directory ( noydir) e Open Directory ( noodp).
  • O uso do cabeçalho HTTP também aplica os dados dos robôs a arquivos, imagens e outros arquivos não HTML! YAY!

Isso funcionará em 99% dos casos. Lembre-se de que ainda é possível ser indexado em alguns casos por alguns fornecedores. O Google afirma respeitar totalmente noindex, mas tenho minhas suspeitas.

Por fim, se você for indexado, ou já tiver sido indexado, a única maneira de obter a descriptografia de suas informações é seguir os vários meios de cada provedor para solicitar a remoção do site / URL. Obviamente, isso significa que você provavelmente desejará monitorar os sites / páginas usando algo como Alertas do Google (obrigado @ Joe).

Kevin Peno
fonte
3

Acho que o seu problema básico são os links de volta para o site, pois eles fornecem aos mecanismos de pesquisa um ponto de entrada para o site e os informam. Portanto, embora eles não exibam uma descrição para o site, eles podem mostrar o URL se acharem a melhor correspondência para o resultado.

Leia este artigo com link do post publicado no @joe: Matt Cutts, mantendo o Google fora

O bit principal é:

Há uma boa razão para isso: quando eu comecei no Google em 2000, vários sites úteis (eBay, New York Times, DMV da Califórnia) tinham arquivos robots.txt que proibiam qualquer busca de página. Agora, pergunto: o que devemos retornar como resultado da pesquisa quando alguém faz a consulta [california dmv]? Ficamos muito tristes se não retornássemos www.dmv.ca.gov como o primeiro resultado. Mas lembre-se: não tínhamos permissão para buscar páginas de www.dmv.ca.gov naquele momento. A solução foi mostrar o link não rastreado quando tivemos um alto nível de confiança de que era o link correto. Às vezes, podemos até obter uma descrição do Open Directory Project, para que possamos fornecer muitas informações aos usuários, mesmo sem buscar a página.

A pesquisa que você fez também cobre bem as coisas, e as respostas de @john e @joe são relevantes. Incluí um link abaixo, que fornece algumas orientações adicionais sobre o bloqueio de mecanismos de pesquisa. A única maneira de pensar em bloquear completamente o site seria adicionar alguma forma de proteção por senha na frente do site que precisa ser concluída antes que o conteúdo seja exibido.

SEOMoz dicas para não aparecer na pesquisa

Matthew Brookes
fonte
Obrigado por adicionar à discussão. A proteção por senha funciona bem para impedir o rastreamento, mas não impede a indexação. Como o robots.txt faz um bom trabalho para impedir isso, a única vantagem da proteção por senha é que ele evitará que olhares indiscretos o encontrem. Infelizmente, a maioria dos conteúdos não é sensível o suficiente para ser "protegida" e certamente não prejudica os problemas de usabilidade que ele cria. [cont ...]
Kevin Peno 13/04
Uma analogia que achei mais útil em minha pesquisa foi a comparação com as listas telefônicas. Se os mecanismos de pesquisa são catálogos telefônicos e você pede para não ser listado, você pode solicitar que nunca seja listado, e eles devem respeitar isso. Infelizmente, os mecanismos de pesquisa estão agindo de maneira mais semelhante às empresas com as quais outras empresas vendem contatos, o que, por sua vez, é dado a quem estiver disposto a pagar / solicitar.
22611 Kevin Peno
@ Kevin, eu entendo o que você está dizendo, infelizmente, não acho que seja possível ser completamente removido com a forma como os mecanismos de pesquisa funcionam atualmente, o melhor que você pode esperar é apenas uma lista de URLs nesse caso.
Matthew Brookes
Ah, eu entendo isso agora (pós-pesquisa). Além disso, por favor, não leve meu comentário à sua resposta de forma negativa. Aprecio sua adição ao tópico, simplesmente respondi para acrescentar os contras da implementação dessa solução, além de adicionar um pouco de brincadeiras fora do tópico, suponho. : P
Kevin Peno