Como evitar ser raspado?

8

Temos um banco de dados pesquisável (DB), limitamos os resultados a 15 por página e apenas 100 resultados ainda levam as pessoas a tentar raspar o site.

Estamos proibindo sites que atingem rápido o suficiente. Fiquei me perguntando se há mais alguma coisa que possamos fazer. Talvez o Flash renderize os resultados?

Randin
fonte
Verifique se você tem um robots.txt ... sim, eu não sei todos honras-lo .. mas alguns ainda fazem
Trent

Respostas:

6

Você pode dificultar um pouco a recuperação dos registros via AJAX e o uso de um ID de autenticação (como uma chave de API) para as chamadas AJAX.

Claro que você pode contornar isso lendo o ID e fazendo a solicitação AJAX usando isso.

A renderização com Flash é uma alternativa, como você indica (embora ainda não seja 100% invencível), como a renderização em PDF.

Ivan
fonte
13

Como obviamente existe uma demanda por seu banco de dados, você já pensou em transformá-lo e fornecer o que os raspadores desejam? Estabelecer uma conexão comercial com os raspadores e incentivar o uso apropriado com uma API?

John McC
fonte
11
Sim, eu amo APIs
Isaac Waller
+1 Você pode até cobrar uma pequena taxa para uso da API e fazer alguns Buchs dos raspadores que se tornaram clientes
Sander Marechal
Sim, configuramos um cronômetro e banimos se as páginas forem acessadas muito rápido, na medida em que vender as informações parece improvável. No passado, elas usavam as informações para colocá-las em outro site e obter receita com cliques.
Randin
4

Não há solução tecnológica para impedir que um indivíduo motivado raspe seu conteúdo acessível ao público.

No entanto, você pode proteger legalmente sua propriedade intelectual:

  • Garantir que seu site tenha direitos autorais claramente marcados
  • A publicação de termos de serviço no rodapé que proíbe claramente a raspagem
  • Considere incorporar uma marca d'água digital em todo o conteúdo do seu site. Não esqueça que o texto também pode ter marca d'água!
Portman
fonte
2

Que tal configurar a autenticação (e talvez captcha), rastrear o uso e limitar o acesso a algum número de registros ou pesquisas é um determinado período de tempo?

tomjedrz
fonte
1

Você provavelmente descobrirá que os raspadores irão melhorar a sua aparência quando aplicar diferentes técnicas. Talvez haja uma maneira de analisar o comportamento dos usuários que raspar e apresentar um captcha ou outra interrupção? Talvez você possa limitar os resultados a um número menor por um período de tempo para forçar os raspadores a aguardar 10 dias. Se eles não fizerem logon no intervalo, assuma que são buracos?

Faça o que fizer, misture suas técnicas para proporcionar um pouco mais de longevidade.

Brian Lyttle
fonte
1

Você precisa considerar que os raspadores podem não estar usando suas páginas e formulários da Web; eles podem estar apenas ligando para o seu site no nível http.

Eu acho que a melhor solução seria lançar um catchpa após um endereço IP solicitar mais do que um determinado limite de solicitação.

Você precisa ter MUITO cuidado para garantir que você não afeta a escalabilidade do seu aplicativo para usuários reais.

Limitar a quantidade de dados por página, conforme descrito na pergunta, aumentará apenas o número de solicitações que os clientes farão no servidor.

Bruce McLeod
fonte