Outro site está espelhando e está acima do meu site nos resultados de pesquisa

55

Existe um site de má reputação, conhecido como trinta, que espelhou completamente meu site e agora possui links que aparecem no Google no primeiro lugar usando meu conteúdo. Eu verifiquei meus arquivos de log e notei que este site está rastreando o meu há algum tempo e também possui 10.000 links do site para o meu.

Eu bloqueei o acesso do usuário referido neste site e os relatei como spam da Web para o Google. Eu também rejeitei o domínio.

Como eles estão conseguindo os melhores links no Google (mesmo ultrapassando os meus) por essas táticas nefastas? Quais são as etapas para eliminar completamente um problema como esse?

ATUALIZAÇÃO 8/28/2014:

Eu pensei em fornecer uma atualização sobre isso, pois tenho mais informações agora. Então, trinta apontaram seus subdomínios para o meu ip, o que fez com que seus subdomínios se parecessem com o meu site.

Por alguns dias, isso não importou muito, porque usando o htaccess, redirecionei todos os HOSTS que não eram do meu domínio, de volta ao meu domínio, o que basicamente significava que eu estava recebendo os links de tráfego dos subdomínios no Google. Depois de alguns dias, trinta e poucos alteraram seus subdomínios para voltar ao site, para que eu não me beneficiasse mais com isso.

Portanto, o ponto principal é que eles usaram meu conteúdo para obter as melhores posições no Google e agora apontam esses links para o site deles para direcionar mais tráfego para o site deles.

É uma tática suja por um site sujo. Minha esperança é que o Google castigue esse comportamento.

Marlboro Goodluck
fonte
3
Eu editei a parte em que você questiona o motivo deles, pois isso está fora de tópico aqui. Mas boa pergunta em contrário.
John Conde
11
A clonagem de sites parece ser um novo truque, muitos sites são mal utilizados no momento. Há notícias em Heise (alemão) sobre esse tópico. A solução usual (além de relatar o site falso) parece ser, fornecer conteúdo especial aos endereços IP dos rastreadores, para que, por exemplo, mostrem um link para o site real.
martinstoeckli
11
Outra preocupação para o futuro - agora que o Google adotou uma postura tão dura contra o spam na web - é que os concorrentes propositadamente postarão meu conteúdo em sites de má reputação para prejudicar minha reputação. Ou publicará blogs com aparência de spam apontando para o meu site sem o meu conhecimento.
Marlboro Goodluck
3
@Jarrod Roberson: na verdade, ninguém sabe sobre um processo judicial, mas quantas de uma solução técnica ?!
precisa saber é o seguinte
11
@JarrodRoberson No entanto, é um problema enfrentado exclusivamente pelos webmasters e, portanto, é muito tópico para este site, porque perguntar aqui obterá respostas de pessoas que também tiveram que lidar com isso. Parece também que as pessoas apresentaram várias soluções técnicas juntamente com as legais.
thanby

Respostas:

45

Se eles estão apenas espelhando seu site, alimentando-o por meio de um script proxy ou regurgitando seu verbatum HTML, você pode adicionar URLs canônicos às suas páginas. Isso permitirá que o Google saiba que seu conteúdo é a fonte original e mostre seu URL nos resultados da pesquisa, não no deles.

Envie uma solicitação DMCA ao Google. Eles são um pouco lentos com eles, mas acabam removendo essas páginas do índice.

Negar os links é uma jogada inteligente.

Não sei se o bloqueio de usuários é útil. Talvez colocar uma mensagem no topo de suas páginas para que eles saibam que você é o site original e o outro é que uma fraude pode ser uma solução melhor.

John Conde
fonte
2
Os URLs canônicos nem sempre ajudam. O script que espelhava meu site alterava os URLs canônicos para apontar também para o site falso; então era inútil.
CaptainCodeman
28

Você pode registrar uma reclamação da DMCA e, se estiver nos EUA, pode entrar com uma ação civil de direitos autorais.

Aqui está um link para uma resposta curta que explica como a reclamação da DMCA pode ajudar alguém:

Você precisa estar nos Estados Unidos para registrar uma reclamação DMCA?

... e outro explica mais ...

Quanto do seu conteúdo precisa ser copiado antes que você possa registrar uma reclamação DMCA?

Se você estiver nos EUA, poderá contratar um advogado familiarizado com questões de direitos autorais e solicitar que ele envie uma carta de cessação e desistência. Dê a eles 10 dias (dias reais e não dias úteis, embora os dias úteis também sejam bons) para remover o conteúdo. Você deseja capturar instantâneos do site ofensivo para sua evidência e instantâneos do seu site também. Se você verificar se uma página foi removida, verifique o site diretamente e não procure os resultados.

Se a página não tiver sido removida dentro do período, você poderá registrar um processo civil federal que levará pelo menos US $ 10.000 para se defender e dificilmente custará nada. Você estará no banco do motorista. É provável que um acordo possa ser obtido por pelo menos US $ 10.000 e possivelmente mais. Você também pode recuperar seus custos. O importante é oferecer uma opção gratuita para corrigir o problema, portanto, a carta de cessar e desistir. Depois disso, você pode registrar um caso sem responsabilidade do réu.

Outra observação é que você precisará demonstrar danos se for a tribunal. Perda do tráfego de pesquisa é danos. Aqui, você trabalhará com seu advogado para coletar métricas que ilustram a perda de tráfego e precisará gerar receita com o valor desse tráfego. Claro que você pode assumir números mais altos aqui, mesmo com uma taxa de conversão de 100%. Por precaução, eu coletaria métricas sobre perda de tráfego usando o Google Analytics e seu software de análise de arquivos de log hoje e no futuro.

Saiba que registrar um caso não é difícil ou muito caro, especialmente se comparado aos danos que você está enfrentando agora e no futuro. As violações de direitos autorais têm diminuído ultimamente, mas as poucas que violam direitos autorais são muito mais ousadas atualmente. Precisamos parar essas pessoas e a única maneira real é colocar um fator de custo na estratégia de negócios que torna a violação de direitos autorais não lucrativa.

closetnoc
fonte
2
Todo o problema que você está evitando é que descobrir quem está por trás do site é praticamente impossível. Quero dizer, eles teriam que ser idiotas para facilitar o rastreamento do site até um indivíduo real.
David Mulder
11
@DavidMulder Sem desvios. Um advogado pode intimar as empresas pelas informações de que precisam. Até uma carta gentil é suficiente. Se as informações não forem fornecidas, o advogado poderá requerer um depoimento no tribunal perante um juiz com uma pena de prisão se eles não aparecerem, ou fornecer as informações solicitadas. Nos EUA, não há como se esconder da lei, civil ou não. Isso ainda funciona internacionalmente, com alguma exceção.
closetnoc
@closetnoc: A empresa pode não querer fornecer as informações livremente, ou mesmo ter a liberdade de fazê-lo. Não é certo que um tribunal emita uma intimação ou que a trilha permaneça sob sua jurisdição. Você pode se encontrar em uma batalha legal muito cara e cara com um terceiro que talvez nem saiba o nome verdadeiro do infrator. A julgar pela sua resposta completa, você está indubitavelmente ciente desses obstáculos, mas eu tenho que apoiar David Mulder: acho que você está subestimando o quão difícil é rastrear o site até um indivíduo.
Marcks Thomas
@closetnoc: Sim, exceto que o provedor de hospedagem não possui as informações corretas. E o pagamento provavelmente foi feito com um cartão de crédito pré-pago ou outro cartão pré-pago, um cartão de crédito roubado, um bitcoin ou outro mecanismo de transação não rastreável. Ah, e o provedor de hospedagem pode nem estar nos EUA em primeiro lugar. Chama-se internet, goste ou não.
David Mulder
@DavidMulder Agradeço o que você está dizendo. Estou no negócio de segurança, especialmente na área de pesquisa sobre como encontrar os bandidos. Principalmente do que você está falando seria chinês, russo ou polonês. Ainda existem maneiras de determinar quem são essas pessoas através de padrões e coisas do gênero. Eles se entregam. Isto é especificamente o que eu faço. Você tem que tentar. Você não pode simplesmente rolar. Um bom advogado da Internet conhece pessoas como eu e como obter informações. Tudo o que preciso é de um fio e geralmente o entendo. Mas pode ser um esforço real. Mas esse é o pior cenário possível.
Closetnoc 24/08/14
27

Você pode rastrear o IP (ou IPs) e retornar conteúdo totalmente diferente para que eles espelhem - o que você quiser. Dessa forma, você obtém espaço livre para anunciar qualquer coisa e pode usar a alta posição deles no Google a seu favor.

Uma vez eu usei isso para simplesmente explicar aos usuários no site espelhado que esse é o domínio errado. Você também pode postar um cabeçalho de redirecionamento HTTP simples.

Igor R
fonte
8
Na verdade, acho isso muito engraçado por algum motivo. +1
Mehrdad
11
eles provavelmente não clone cabeçalhos HTTP, mas você pode enviá-los animações javascript e engraçado Bandeiras do estilo Marquee gritando 'esta é uma imitação' e bons velhos gifs animados: P
Florian Fida
também pode usar metatags e redirecionamentos javascript, um dos três quase certamente funcionará. de qualquer forma, essa não é uma solução estável e só funcionará até que eles descubram e comecem a trabalhar contra ela. @Mehrdad, eu acho que é engraçado porque é :) hacky
Igor R
também me ocorreu que é engraçado porque o atacante está realmente abrindo uma vulnerabilidade para si mesmo, deixando a vítima no seu playground (atacantes), mesmo que ele possa pará-la a qualquer momento. o que faz com que o atacante pareça bem estúpido.
Igor R
Sua alta posição no Google está substituindo a alta posição do site original, portanto, não é realmente "publicidade gratuita".
CaptainCodeman
12

Um pouco tarde para você, mas a melhor idéia para proteger seu site (no futuro) seria esta: https://www.youtube.com/watch?v=I3pNLB3Cq24 (defcon 21, defesa por números) falsificando o código de retorno para que os usuários verá o conteúdo, mas os robôs

  • jogue o conteúdo fora
  • rastrear em círculos
  • parar de trabalhar

outras idéias possíveis - verifique se seus usuários não veem nada disso:

  • deixe-os salvar GB de informações (enquanto houver apenas alguns kb no servidor)
  • faça os bots inundarem sua própria memória com links falsos
  • envie conteúdo falso (100% boolsh * t - você precisa escrever coisas como "Obama grávida", "Spider-Man 5 - no próximo verão", ... para que seus ladrões possam hospedá-lo ...)
  • envie arquivos falsos (como 42.zip, se eles não verificarem o conteúdo copiado, seus usuários se divertirão -> as ferramentas AV mostrarão que algo está errado -> os usuários serão p * ss * d ...)
  • espere por mais dados (tamanho do arquivo = 1-10 MB e envie cr * p aleatório com 1 Byte / s ou menos)

outras idéias:

  • links protegidos por Javascript (antigos, não servem mais? mas, se permanecerem inalterados, os usuários serão enviados a você (por um tempo))
  • lixo dinâmico (use comentários ou itens invisíveis para fazer com que os bots baixem coisas que os usuários não podem ver - bons bots não caem nessa)
  • bloqueie endereços IP que são baixados demais / muito rápido / da maneira errada (os bots não se comportam como seres humanos 1) todo link em cada página 2) existe um padrão ou caos total na maneira como eles escolhem o (s) próximo (s) link (s)
  • use Javascript para redirecionar para o servidor se os arquivos não estiverem hospedados no servidor (nenhuma ajuda contra roubo, mas os ladrões precisam removê-lo ou os usuários não permanecerão na página - você pode codificá-lo em diferentes rotinas (como descriptografia de conteúdo ))
MurksVomOrk
fonte
Eu tenho meu próprio código que ainda preciso ajustar alguns que bloqueiam aranhas. Vou analisar suas idéias, porque esse é o tipo de cara que eu sou! ;-) Ótimas dicas!
precisa saber é o seguinte
4
O problema com o bloqueio de aranhas e bots é que você provavelmente não deseja que todos eles sejam bloqueados. O Google é muito importante, por exemplo, se você deseja que as pessoas possam encontrar seu site. (E como o Google tem seu site em cache, um rastreador da Web não precisa rastrear seu site para duplicá-lo).
trlkly
Se você deliberadamente lhes der algo alternativo - prefiro a resposta do Igor de torná-lo benéfico (redirecionar / dizer que está errado / hospedar anúncios) em vez de revidar.
OJFord 22/08/14
2

Isso é chamado de Google Proxy Hack, e aconteceu comigo também.

Primeiras coisas primeiro:

  • Envie uma reclamação DMCA ao host da Web. Use este link para criar uma reclamação formada corretamente e envie-a para o email de suporte ou abuso do host. Se o host estiver nos EUA, eles deverão derrubar o site. Mesmo que eles não sejam baseados nos EUA, eles podem optar por derrubar o site de qualquer maneira. (Aquilo aconteceu comigo uma vez.)
  • Use a ferramenta DMCA do Google para solicitar que os URLs espelhados sejam removidos dos resultados da pesquisa.
  • Use o Relatório do raspador do Google para relatar a falha no algoritmo do Google.

Fundamentalmente, porém, isso é um fracasso da parte do Google. Por tudo o que eles dizem sobre a classificação ser baseada em "conteúdo original de qualidade", esse é um contra-exemplo absurdamente simples que, francamente, é apenas embaraçoso.

Esperemos que, se um número suficiente de pessoas se queixar, o Google acabará se reunindo e escreverá as 10 linhas de código necessárias para verificar se um site é um espelho exato de um site previamente estabelecido.

Além disso, lembre-se de que o uso de URLs canônicos nem sempre funciona nessa instância. Muitos desses scripts de proxy alteram os URLs canônicos para apontar para o site espelho, tornando-os inúteis.

Por fim, esteja ciente de que eles também podem enviar spam para o seu site principal com links de lixo para danificar seus rankings. (Isso também me aconteceu.)

Se você fizer alguma pesquisa e pensamento criativo, existem algumas maneiras de revidar. Realmente não acho que seja uma boa ideia publicar uma lista completa aqui, porque isso facilita a vida dos hackers.

CaptainCodeman
fonte
1

Como outros já mencionaram, registrar uma queixa da DMCA e uma ação civil de direitos autorais pode ser a melhor opção.

Para o novo conteúdo que você publica, considere notificar sobre as atualizações do seu site nas mídias sociais (Twitter, Facebook etc.) assim que publicar. O registro de data e hora registrado pode ser um indicador justo que você escreveu primeiro, caso precise provar. Por meio das Ferramentas do Google para webmasters, você pode aplicar uma configuração para que o Googlebot rastreie seu site com frequência . Supondo que os mecanismos de pesquisa populares indexem suas páginas da Web regularmente (use o operador do site, site: exemplo.com, para descobrir) a data na cópia em cache pode ser usada como um indicador aproximado de quando o conteúdo foi publicado.

Também para o novo conteúdo que você publica, é possível incorporar marcas d'água em imagens e colocar comentários em arquivos JS, indicando que você é o proprietário original desses arquivos.

mvark
fonte
Se houver um bot que copie o conteúdo, ele pode simplesmente incluir informações de autoria na página, para que o conteúdo copiado contenha algo como "Isso foi criado por Foo, todos os direitos reservados", o que torna um caso muito claro (você pode, por exemplo, ocultar que no acróstico, mas sendo um bot, funcionará em texto simples e tornará o seu caso mais forte).
Ángel