O site foi hackeado. Precisa remover todos os URLs começando com + do Google, usar robots.txt?

15

Você poderia me informar como bloquear esses URLs robots.txtpara que o Googlebots pare de indexar?

http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q

Meu site foi invadido e agora está recuperado, mas o hacker indexou 5000 URLs no Google e agora recebo o erro 404 em links gerados aleatoriamente, como acima de tudo, começando com o /+link acima.

Gostaria de saber se existe uma maneira rápida de remover manualmente esses URLs das Ferramentas do Google para webmasters?

Podemos bloquear isso com robots.txtURLs que começam com +sinal?

unor
fonte
2
Não há nada de especial +(mais) no caminho da URL, é apenas um personagem como qualquer outro.
MrWhite
Você poderia redirecionar o Apache (em .htaccess) para um arquivo ou diretório que o robots.txt proíbe robôs de acessar
Mawg diz que restabelece Monica em
@ Makaw Qual é o sentido de fazer isso?
MrWhite
Para manter robôs bem comportados fora?
Mawg diz que restabelece Monica
2
Independentemente do problema com os URLs, você pode ler Como faço para lidar com um servidor comprometido?
Jonas Schäfer

Respostas:

30

Meu site foi invadido e agora está recuperado, mas o hacker indexou 5000 URLs no Google e agora recebo o erro 404

Um 404 é provavelmente preferível ao bloqueio robots.txtse você quiser que esses URLs sejam retirados dos mecanismos de pesquisa (por exemplo, Google). Se você bloquear o rastreamento, o URL ainda poderá permanecer indexado. (Observe que robots.txtbloqueia principalmente o rastreamento , não a indexação .)

Se você deseja "acelerar" a desindexação desses URLs, talvez seja possível exibir um "410 Gone" em vez do "404 Not Found" não usual. Você pode fazer algo como o seguinte com mod_rewrite (Apache) no seu .htaccessarquivo raiz :

RewriteEngine On
RewriteRule ^\+ - [G]
Sr. White
fonte
14

Eu vou responder a segunda pergunta.

Eu queria saber se existe uma maneira rápida, além de remover manualmente esses URLs das ferramentas do Google para webmasters?

https://developers.google.com/webmasters/hacked/docs/clean_site

O Google afirma explicitamente que a remoção pelo Google Search Console (o novo nome das ferramentas para webmasters) é a mais rápida.

Se o hacker criou URLs totalmente novos e visíveis ao usuário, você pode remover essas páginas mais rapidamente dos resultados de pesquisa do Google usando o recurso Remover URLs no Search Console. Este é um passo totalmente opcional. Se você simplesmente excluir as páginas e depois configurar o servidor para retornar um código de status 404, as páginas cairão naturalmente do índice do Google com o tempo.

Mas eles também entendem que isso não é viável em alguns casos:

A decisão de usar a remoção de URL provavelmente dependerá do número de páginas novas e indesejadas criadas (muitas páginas podem ser complicadas de serem incluídas em Remover URLs), além do dano potencial que essas páginas podem causar aos usuários. Para impedir que as páginas enviadas por meio da remoção de URL apareçam nos resultados da pesquisa, verifique se as páginas também estão configuradas para retornar uma resposta 404 Arquivo não encontrado para os URLs indesejados / removidos.

Portanto, enquanto você pode bloquear essas páginas no robots.txt, você não está executando nenhuma das etapas corretivas, conforme explicado pelo google.

pastepotpete
fonte
4
User-Agent: *  
Disallow: /+

deve fazer o que quiser. Ele informará o robô para não solicitar todos os URLs começando com a +.

Sven
fonte
2

Se você realmente deseja usar o robots.txt, essa seria uma resposta simples para sua pergunta. Também incluí um link para onde você pode ler as especificações no robots.txt.

User-agent: *
Disallow: /+

Leia sobre as especificações do robots.txt

Mas uma outra alternativa pode ser usar .htaccess para criar uma regra de reescrita (se você usar o Apache etc.) para capturá-las e talvez informar ao Google um código HTTP de retorno melhor ou simplesmente redirecionar o tráfego para outra página.

davidbl
fonte
2
Não há necessidade do *asterisco no final do caminho da URL. Ele deve ser removido para maior compatibilidade com a aranha. robots.txtjá é correspondência de prefixo, /+*o mesmo acontece com os /+bots que suportam caracteres curinga e, para os bots que não suportam caracteres curinga, /+*eles não corresponderão.
MrWhite
Você está certo, acabei de escrever isso com base na pergunta dele sobre o Googlebot. Eu o editei para refletir uma melhor compatibilidade com vários bots.
Davidbl #