Você poderia me informar como bloquear esses URLs robots.txt
para que o Googlebots pare de indexar?
http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q
Meu site foi invadido e agora está recuperado, mas o hacker indexou 5000 URLs no Google e agora recebo o erro 404 em links gerados aleatoriamente, como acima de tudo, começando com o /+
link acima.
Gostaria de saber se existe uma maneira rápida de remover manualmente esses URLs das Ferramentas do Google para webmasters?
Podemos bloquear isso com robots.txt
URLs que começam com +
sinal?
+
(mais) no caminho da URL, é apenas um personagem como qualquer outro.Respostas:
Um 404 é provavelmente preferível ao bloqueio
robots.txt
se você quiser que esses URLs sejam retirados dos mecanismos de pesquisa (por exemplo, Google). Se você bloquear o rastreamento, o URL ainda poderá permanecer indexado. (Observe querobots.txt
bloqueia principalmente o rastreamento , não a indexação .)Se você deseja "acelerar" a desindexação desses URLs, talvez seja possível exibir um "410 Gone" em vez do "404 Not Found" não usual. Você pode fazer algo como o seguinte com mod_rewrite (Apache) no seu
.htaccess
arquivo raiz :fonte
Eu vou responder a segunda pergunta.
https://developers.google.com/webmasters/hacked/docs/clean_site
O Google afirma explicitamente que a remoção pelo Google Search Console (o novo nome das ferramentas para webmasters) é a mais rápida.
Mas eles também entendem que isso não é viável em alguns casos:
Portanto, enquanto você pode bloquear essas páginas no robots.txt, você não está executando nenhuma das etapas corretivas, conforme explicado pelo google.
fonte
deve fazer o que quiser. Ele informará o robô para não solicitar todos os URLs começando com a
+
.fonte
Se você realmente deseja usar o robots.txt, essa seria uma resposta simples para sua pergunta. Também incluí um link para onde você pode ler as especificações no robots.txt.
Leia sobre as especificações do robots.txt
Mas uma outra alternativa pode ser usar .htaccess para criar uma regra de reescrita (se você usar o Apache etc.) para capturá-las e talvez informar ao Google um código HTTP de retorno melhor ou simplesmente redirecionar o tráfego para outra página.
fonte
*
asterisco no final do caminho da URL. Ele deve ser removido para maior compatibilidade com a aranha.robots.txt
já é correspondência de prefixo,/+*
o mesmo acontece com os/+
bots que suportam caracteres curinga e, para os bots que não suportam caracteres curinga,/+*
eles não corresponderão.