Meu blog WordPress é completamente clonado. Esse site clone está sendo atualizado em tempo real com o meu blog. Estou surpreso que alguém possa realmente fazer isso.
O que devo fazer para impedir o impacto prejudicial na classificação do meu mecanismo de pesquisa? Existe alguma maneira de dizer ao Google para não indexar esse site?
wordpress
scraper-sites
Tanvir Hasan
fonte
fonte
Respostas:
Eles estão simplesmente carregando seu site por meio de um script do lado do servidor. Tudo o que você precisa fazer é bloquear o endereço IP do servidor via .htaccess. Simplesmente abra os logs de acesso do servidor, abra a página clonada no site deles, depois veja o log da nova entrada e você terá o endereço IP deles.
Também não faria mal enviar uma solicitação de DMCA ao Google, mas isso realmente não será necessário, pois o conteúdo desaparecerá instantaneamente depois que você bloquear o endereço IP.
fonte
(Além da resposta de @ John.)
Bastante curioso que, enquanto eles parecem ter clonado tudo (incluindo seus sitemaps XML * 1 ), eles não têm clonado seu arquivo robots.txt. De fato, o robots.txt nesse site bloqueia ativamente o rastreamento de tudo! Portanto, não parece haver nada a fazer a esse respeito. Fazer uma pesquisa no site nesse domínio retorna apenas o domínio simples e um aviso informando que está bloqueado pelo robots.txt.
(Bastante curioso, qual seria a intenção deles em fazer isso? Você pode simplesmente supor que eles cometeram um erro com o robots.txt - e que talvez sim - mas isso parece mais uma exceção deliberada para mim?)
Além disso, enquanto seus sitemaps XML são clonados, eles não estão atualizando os URLs neles (como estão fazendo nas páginas principais do site), por isso ainda apontam para o site.* 1 Em relação aos mapas de site XML. No seu site, "sitemap.xml" é realmente um redirecionamento para "sitemap_index.xml" e o site clonado realmente clonou o redirecionamento ... que redireciona de volta para o seu site! (Certamente um erro da parte deles.) "Sitemap_index.xml" é apenas um índice, vinculando a outros 4 mapas de site. Se algum desses sitemaps reais for solicitado diretamente no site clonado, ele será corretamente clonado e os URLs atualizados. No entanto, eu diria que é improvável que esses sitemaps sejam encontrados no site clonado devido ao redirecionamento inicial de "sitemap.xml". (?) Embora se eles enviassem "sitemap_index.xml" diretamente, isso obviamente contornaria o redirecionamento.
fonte
Se o site produzir backlinks para você, é importante usar a ferramenta Google Disavow, caso contrário, o algoritmo funcionará contra você, independentemente.
https://www.google.com/webmasters/tools/disavow-links-main
crie um arquivo .txt e adicione:
faça o upload para o Google por meio das Ferramentas do Google para webmasters.
Aqui estão exatamente as etapas que eu daria para resolver esse problema. Eu sei que muitos webmasters enfrentam esse problema. Eu já tive esse problema antes e não parece haver uma resposta direta no Google (ironicamente) (é por isso que quero ajudar). Matt Cutts é o cara que você deve ouvir sobre essas questões, mas ouvi-lo é como tentar ganhar um jogo de xadrez contra um supercomputador dentro de uma casa em chamas (nenhuma ajuda a ser encontrada).
Os Cutts curtos:
Minha primeira resposta foi negar o domínio, mas esqueci de mencionar que você precisa negar:
(O Google os conta como dois domínios separados).
fonte