Por que esses sites estão clonando meu conteúdo e como os paro?

14

Então, eu estava procurando por um dos meus próprios sites no Google: http://www.botlibre.com

e, para minha surpresa, encontrei alguns clones do meu site, como:

http://83waystowasteyourtime.adidas.com

e:

http:// mediaiq.astral.comm

Minha pergunta é:

  1. Por que eles estão criando clones do meu site? Algum tipo de esquema de SEO ou o quê? Que ganho eles poderiam estar obtendo?
  2. Como eles têm um URL em adidas.come astral.comm? Suponho que a Adidas não esteja reforçando meu conteúdo.
  3. Como faço para desligar esses sites e impedir que as pessoas roubem meu conteúdo? (no Tomcat)
James
fonte
copyscape.com Parece ser um bom recurso para encontrar conteúdo duplicado, foi assim que encontrei algumas cópias do meu site.
`` Kzqai

Respostas:

17

OK. É um tanto estranho, mas não tão trágico quanto você imagina.

Não tenho certeza de qual seria o resultado. Isso não faz absolutamente sentido para mim, por que alguém faria isso. Não vejo nenhuma vantagem para o hacker. A boa notícia é que o visitante está acessando seu site. No entanto, haverá um impacto do ponto de vista de SEO, então você deseja corrigir isso rapidamente.

Seu site, presumo, não está em um servidor compartilhado, portanto, se você acessar o site pelo endereço IP, ele ainda funcionará. Eu testei isso e faz.

83waystowasteyourtime.adidas.com e mediaiq.astral.com são subdomínios usando um hack antigo que permite a qualquer pessoa criar um subdomínio para qualquer domínio desavisado. Você pode ler sobre isso aqui: http://www.techrepublic.com/blog/it-security/watch-out-for-dns-sub-domain-hijacking/ Existem mais sites se o subdomínio do Google DNS DNS hackear .

A boa notícia é essa. Estes não são clones ou cópias do seu site, eles são o seu site. Cada subdomínio aponta especificamente para o seu endereço IP.

Você pode fazer um:

> dig 83waystowasteyourtime.adidas.com any

e

> dig mediaiq.astral.comm any

em qualquer computador linux para ver.

Você provavelmente pode combater isso, embora não tenha certeza de qual método funcionará:

Supondo que você tenha o Apache instalado, você pode editar o arquivo .htaccess no diretório raiz da web e inserir o código a seguir.

Adicione o seguinte na parte superior do arquivo para ativar o mecanismo de reescrita.

RewriteEngine On

Bloqueio por host:

RewriteCond %{HTTP_HOST} ^83waystowasteyourtime\.adidas\.com$ [NC]
RewriteRule .* - [F,L]

--ou--

Bloqueio por referenciador:

RewriteCond %{HTTP_REFERER} ^83waystowasteyourtime\.adidas\.com$ [NC]
RewriteRule .* - [F,L]

Você vai querer testá-las e nos dizer qual delas funciona. Por favor. Pode ser que precisemos procurar outro método.

É claro que você pode alterar a regra de reescrita e redirecioná-la diretamente para o seu site, com:

RewriteRule .* http://www.botlibre.com [R=301,L]

--ou--

Envie-os para o inferno (humor) com:

RewriteRule .* http://www.hell.com [R=301,L]

... que é um site real. Mas você passaria o problema para eles.

Eu recomendo bloqueá-los.

Como @Martijn mencionou em seu comentário e vale a pena preservar, você pode ter links canônicos por página para ajudar a protegê-lo. Nesse caso, o link apontaria para a página em que o link está. É mais trabalho, mas parece uma boa ideia nos dias de hoje.

<link rel="canonical" href="http://www.example.com/booger-eating-tyrants" />

Além disso, você pode alcançar os proprietários do domínio pai e deixá-los se juntar a você na batalha:

Adidas.com

Admin Name: Albert Pedraz
Admin Organization: adidas AG
Admin Street: Adi-Dassler-Strasse 1
Admin City: Herzogenaurach
Admin State/Province:
Admin Postal Code: 91074
Admin Country: DE
Admin Phone: +49.9132844584
Admin Email: [email protected]

Tech Name: noris.net Hostmaster
Tech Organization: noris network AG
Tech Street: Thomas-Mann-Str. 16-20
Tech City: Nuernberg
Tech State/Province:
Tech Postal Code: 90471
Tech Country: DE
Tech Phone: +49.91193520
Tech Fax: +49.9119352100
Tech Email: [email protected]

Astral.com

Admin Name: Van Tu Duong
Admin Organization: Bell Media Inc.
Admin Street: 9 Channel Nine Court,
Admin City: Scarborough
Admin State/Province: Ontario
Admin Postal Code: M1S 4B5
Admin Country: CA
Admin Phone: +1.5148702477
Admin Phone Ext:
Admin Fax:
Admin Fax Ext:
Admin Email: [email protected]

Tech Name: Van Tu Duong
Tech Organization: Bell Media Inc.
Tech Street: 9 Channel Nine Court,
Tech City: Scarborough
Tech State/Province: Ontario
Tech Postal Code: M1S 4B5
Tech Country: CA
Tech Phone: +1.5148702477
Tech Phone Ext:
Tech Fax:
Tech Fax Ext:
Tech Email: [email protected]
closetnoc
fonte
3
E adicione um cabeçalho 301 ao seu site e adicione uma tag canônica às suas páginas para que os mecanismos de pesquisa conheçam o original. Poderia muito bem levar isso para sua vantagem :)
Martijn
@Martijn Obrigado pelo comentário! Atualizei a resposta com um exemplo de link canônico. Isso deve ajudar as pessoas no futuro.
precisa saber é o seguinte
Obrigado pela ótima informação. Em que arquivo eu coloco "RewriteCond" exatamente? Também qualquer resposta à pergunta nº 1, por quê? que benefício eles estão obtendo disso?
James James
1
@ James Atualizei a resposta. Respondi à pergunta 1, mas ela foi mais baixa e provavelmente foi facilmente perdida. Mudei para o topo e expandi um pouco. Também adicionei qual arquivo e onde encontrá-lo - assumindo o Apache (este é o código do Apache). Eu não conheço mais o IIS. Já faz mais de uma década que faço algo com o IIS. Lembre-se, não tenho certeza de qual conjunto de códigos funciona, mas desconfio que a versão% {HTTP_REFERER} esteja correta. Teste e informe-nos quais são os resultados. Mais uma vez, assumindo o Apache.
precisa saber é o seguinte
Desculpe, estou usando o Tomcat, alguma idéia de como fazer isso no Tomcat?
James James