Como webmaster encarregado de um pequeno site que possui um fórum, recebo regularmente reclamações dos usuários de que tanto o mecanismo de pesquisa interno quanto as pesquisas externas (como ao usar o Google) são totalmente poluídas pelas assinaturas de meus usuários (eles estão usando muito tempo assinaturas e isso faz parte da experiência do fórum, porque as assinaturas fazem muito sentido no meu fórum).
Então, basicamente, estou vendo duas opções a partir de agora:
Renderizando a assinatura como uma imagem e quando um usuário clica na "imagem da assinatura", ela é levada para uma página que contém a assinatura real (com os links na assinatura etc.) e essa página é definida como não rastreável pela pesquisa aranhas do motor). Isso consumiria alguma largura de banda e precisaria de algum trabalho (porque eu precisaria de um renderizador HTML produzindo a imagem etc.), mas obviamente resolveria o problema (existem pequenas dicas de que a assinatura não respeitará o esquema de fonte / cor do de qualquer maneira, os usuários, mas meus usuários são muito criativos com suas assinaturas, usando fontes / cores / tamanho personalizados, etc.
Marcar todas as partes da página da Web que contêm uma assinatura como não rastreáveis.
No entanto, não tenho certeza sobre o seguinte: isso é algo que pode ser feito? Você pode marcar partes específicas de uma página da Web como não rastreáveis?
fonte
Outra solução é agrupar o sig em uma extensão ou div com o estilo definido como
display:none
e, em seguida, usar o Javascript para removê-lo, para que o texto seja exibido para navegadores com o Javascript ativado. Os mecanismos de pesquisa sabem que não será exibido, portanto não devem indexá-lo.Este bit de HTML, CSS e javascript deve fazê-lo:
HTML:
CSS:
javascript:
Você precisará incluir uma biblioteca jquery .
fonte
Eu tive um problema semelhante, resolvi com css, mas isso também pode ser feito com javascript e jquery.
1 - Criei uma classe que chamarei "
disallowed-for-crawlers
" e coloquei essa classe em tudo o que eu não queria que o bot do Google visse, ou coloquei dentro de um intervalo com essa classe.2 - No CSS principal da página, terei algo como
3- Crie um arquivo CSS chamado disallow.css e adicione ao robots.txt que não é permitido rastrear, para que os rastreadores não acessem esse arquivo, mas adicione-o como referência à sua página após o css principal.
4-
disallow.css
Coloquei o código:Você pode jogar com javascript ou css. Eu apenas aproveitei as classes disallow e css. :) espero que ajude alguém.
fonte
Uma maneira de fazer isso é usar uma imagem de texto em vez de texto simples.
É possível que o Google seja esperto o suficiente para ler o texto da imagem, por isso pode não ser totalmente à prova de futuro, mas deve funcionar bem por pelo menos um tempo a partir de agora.
Há várias desvantagens nessa abordagem. Se uma pessoa é deficiente visual, é ruim. Se você deseja que seu conteúdo se adapte a dispositivos móveis versus computadores de mesa, é ruim. (e assim por diante)
Mas é um método que atualmente funciona (um pouco).
fonte
Isso é facil.
Antes de exibir sua página, você precisa saber se é para um bot, um computador ou um telefone. Você precisa definir o conteúdo adequadamente. Essa é a prática padrão nos dias de hoje e a idade e a funcionalidade principal de alguns CMSs.
Existem várias soluções no SE para redirecionar com base no USER AGENT que podem ser colocadas no seu htaccess. Se isso se adequar ao software do fórum, você poderá executar um código diferente no mesmo banco de dados para fornecer o que o Google precisa sem a palha e os aparamentos.
Como alternativa, você pode colocar uma pequena linha no seu código PHP que faz 'se USER AGENT == Googlebot não mostrar assinaturas'.
Se você realmente não pode fazer isso, pode obter mod_proxy para servir ao bot e usá-lo para remover qualquer coisa que seu código php gere que o bot não precise ver.
Tecnicamente, o Google não aprova que seu mecanismo de pesquisa seja mostrado em uma página diferente da que o visitante normal do site vê; no entanto, até o momento, ele não retirou a BBC e outras pessoas que fornecem conteúdo específico do navegador / IP / visitante dos resultados do mecanismo de pesquisa. . Eles também têm meios limitados para ver se o bot foi "enganado".
A solução alternativa de ocultar conteúdo com CSS para que ele seja reativado por um script também é um pouco de uma área cinzenta. De acordo com as diretrizes das Ferramentas do Google para webmasters de 20/6/11, essa não é uma boa ideia:
http://www.google.com/support/webmasters/bin/answer.py?answer=66353
Pode não ser um tablet lançado em pedra, mas está atualizado e pelo Google.
O truque ocultar o conteúdo não funcionará com a minoria de pessoas que não possuem javascript; isso pode não ser uma grande preocupação; no entanto, aguardar o carregamento do documento e mostrar as assinaturas não será uma experiência de visualização satisfatória. pense que a página foi carregada, ela saltará à medida que as assinaturas ocultas aparecerem e empurrar o conteúdo para baixo na página. Esse tipo de carregamento de página pode ser irritante se você tiver um net-top low-end, mas pode não ser perceptível se você tiver uma máquina de desenvolvedores rápida em uma conexão rápida à Internet.
fonte
Não, não há como impedir que robôs rastreiem partes de páginas. É uma página inteira ou nada.
Os snippets nos resultados de pesquisa do Google geralmente são retirados da meta descrição na página. Assim, você pode fazer o Google mostrar uma parte específica da página colocando isso na tag de meta descrição. Com o conteúdo gerado pelo usuário, é difícil obter bons trechos, mas a primeira postagem do segmento provavelmente funcionaria.
A única outra maneira em que posso pensar é usar Javascript. Algo como paulmorriss sugerido pode funcionar, mas acho que os mecanismos de pesquisa ainda indexariam o conteúdo se ele estiver no HTML. Você pode removê-lo do HTML, armazená-lo na string Javascript e adicioná-lo novamente no carregamento da página. Isso fica um pouco complexo, no entanto.
Por fim, um aspecto a ter em mente: se o Google estiver mostrando assinaturas de usuários em seus trechos, decidiu que é a parte mais relevante para a consulta do usuário.
fonte
Você pode colocar a página em um PHP se com um "else" que leva a um captcha que fornece a chave para a parte if.
Realmente não me importo, porque se a credencial do usuário não corresponder na minha página, ela receberá uma página em branco ou será enviada para a página de login.
$key
deve ser um hash do dia atual ou algo que mude, para que não seja suficiente adicionar valor à sessão.Escreva no comentário se você quiser que eu adicione um exemplo captcha porque não tenho um agora.
fonte
Aparentemente, <! - googleoff: all -> e <! - googleon: all -> fazem o que você deseja.
Leia mais https://www.google.com/support/enterprise/static/gsa/docs/admin/70/gsa_doc_set/admin_crawl/preparing.html#1076243
https://perishablepress.com/tell-google-to-not-index-fficient-parts-of-your-page/
fonte