Estou tendo problemas com bot EXTREME em alguns sites da minha conta de hospedagem. Os bots utilizam mais de 98% dos recursos da minha CPU e 99% da minha largura de banda para toda a minha conta de hospedagem. Esses bots estão gerando mais de 1 GB de tráfego por hora para meus sites. O tráfego humano real para todos esses sites é inferior a 100 MB / mês .
Fiz uma extensa pesquisa no arquivo robots.txt e no arquivo .htaccess para bloquear esses bots, mas todos os métodos falharam.
Também coloquei código nos arquivos robots.txt para bloquear o acesso aos diretórios de scripts, mas esses bots (Google, MS Bing e Yahoo) ignoram as regras e executam os scripts de qualquer maneira.
Não quero bloquear completamente os bots do Google, MS Bing e Yahoo, mas quero limitar a taxa de rastreamento. Além disso, adicionar uma instrução de atraso de rastreamento no arquivo robots.txt não diminui a velocidade dos bots. Meu código robots.txt e .htacces atual para todos os sites estão indicados abaixo.
Eu configurei as ferramentas para webmasters da Microsoft e do Google para diminuir a taxa de rastreamento para o mínimo absoluto, mas eles ainda estão acessando esses sites a uma taxa de 10 hits / segundo.
Além disso, toda vez que eu carrego um arquivo que causa um erro, todo o servidor da Web VPS fica inoperante em segundos, de modo que eu nem consigo acessar o site, corrigindo o problema devido ao ataque de hits desses bots.
O que posso fazer para interromper o tráfego no slot dos meus sites?
Tentei perguntar à minha empresa de hospedagem na web (site5.com) várias vezes sobre esse problema nos últimos meses e eles não podem me ajudar com esse problema.
O que eu realmente preciso é impedir que os Bots executem o script rss2html.php. Tentei as duas sessões e os cookies e ambos falharam.
robots.txt
User-agent: Mediapartners-Google
Disallow:
User-agent: Googlebot
Disallow:
User-agent: Adsbot-Google
Disallow:
User-agent: Googlebot-Image
Disallow:
User-agent: Googlebot-Mobile
Disallow:
User-agent: MSNBot
Disallow:
User-agent: bingbot
Disallow:
User-agent: Slurp
Disallow:
User-Agent: Yahoo! Slurp
Disallow:
# Directories
User-agent: *
Disallow: /
Disallow: /cgi-bin/
Disallow: /ads/
Disallow: /assets/
Disallow: /cgi-bin/
Disallow: /phone/
Disallow: /scripts/
# Files
Disallow: /ads/random_ads.php
Disallow: /scripts/rss2html.php
Disallow: /scripts/search_terms.php
Disallow: /scripts/template.html
Disallow: /scripts/template_mobile.html
.htaccess
ErrorDocument 400 http://english-1329329990.spampoison.com
ErrorDocument 401 http://english-1329329990.spampoison.com
ErrorDocument 403 http://english-1329329990.spampoison.com
ErrorDocument 404 /index.php
SetEnvIfNoCase User-Agent "^Yandex*" bad_bot
SetEnvIfNoCase User-Agent "^baidu*" bad_bot
Order Deny,Allow
Deny from env=bad_bot
RewriteEngine on
RewriteCond %{HTTP_user_agent} bot\* [OR]
RewriteCond %{HTTP_user_agent} \*bot
RewriteRule ^.*$ http://english-1329329990.spampoison.com [R,L]
RewriteCond %{QUERY_STRING} mosConfig_[a-zA-Z_]{1,21}(=|\%3D) [OR]
# Block out any script trying to base64_encode crap to send via URL
RewriteCond %{QUERY_STRING} base64_encode.*\(.*\) [OR]
# Block out any script that includes a <script> tag in URL
RewriteCond %{QUERY_STRING} (\<|%3C).*script.*(\>|%3E) [NC,OR]
# Block out any script trying to set a PHP GLOBALS variable via URL
RewriteCond %{QUERY_STRING} GLOBALS(=|\[|\%[0-9A-Z]{0,2}) [OR]
# Block out any script trying to modify a _REQUEST variable via URL
RewriteCond %{QUERY_STRING} _REQUEST(=|\[|\%[0-9A-Z]{0,2})
# Send all blocked request to homepage with 403 Forbidden error!
RewriteRule ^(.*)$ index.php [F,L]
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteCond %{REQUEST_URI} !^/index.php
RewriteCond %{REQUEST_URI} (/|\.php|\.html|\.htm|\.feed|\.pdf|\.raw|/[^.]*)$ [NC]
RewriteRule (.*) index.php
RewriteRule .* - [E=HTTP_AUTHORIZATION:%{HTTP:Authorization},L]
# Don't show directory listings for directories that do not contain an index file (index.php, default.asp etc.)
Options -Indexes
<Files http://english-1329329990.spampoison.com>
order allow,deny
allow from all
</Files>
deny from 108.
deny from 123.
deny from 180.
deny from 100.43.83.132
ATUALIZAÇÃO PARA MOSTRAR AGENTE DE USUÁRIO ADICIONADO BOTÃO DE CÓDIGO
<?php
function botcheck(){
$spiders = array(
array('AdsBot-Google','google.com'),
array('Googlebot','google.com'),
array('Googlebot-Image','google.com'),
array('Googlebot-Mobile','google.com'),
array('Mediapartners','google.com'),
array('Mediapartners-Google','google.com'),
array('msnbot','search.msn.com'),
array('bingbot','bing.com'),
array('Slurp','help.yahoo.com'),
array('Yahoo! Slurp','help.yahoo.com')
);
$useragent = strtolower($_SERVER['HTTP_USER_AGENT']);
foreach($spiders as $bot) {
if(preg_match("/$bot[0]/i",$useragent)){
$ipaddress = $_SERVER['REMOTE_ADDR'];
$hostname = gethostbyaddr($ipaddress);
$iphostname = gethostbyname($hostname);
if (preg_match("/$bot[1]/i",$hostname) && $ipaddress == $iphostname){return true;}
}
}
}
if(botcheck() == false) {
// User Login - Read Cookie values
$username = $_COOKIE['username'];
$password = $_COOKIE['password'];
$radio_1 = $_COOKIE['radio_1'];
$radio_2 = $_COOKIE['radio_2'];
if (($username == 'm3s36G6S9v' && $password == 'S4er5h8QN2') || ($radio_1 == '2' && $radio_2 == '5')) {
} else {
$selected_username = $_POST['username'];
$selected_password = $_POST['password'];
$selected_radio_1 = $_POST['group1'];
$selected_radio_2 = $_POST['group2'];
if (($selected_username == 'm3s36G6S9v' && $selected_password == 'S4er5h8QN2') || ($selected_radio_1 == '2' && $selected_radio_2 == '5')) {
setcookie("username", $selected_username, time()+3600, "/");
setcookie("password", $selected_password, time()+3600, "/");
setcookie("radio_1", $selected_radio_1, time()+3600, "/");
setcookie("radio_2", $selected_radio_2, time()+3600, "/");
} else {
header("Location: login.html");
}
}
}
?>
Também adicionei o seguinte ao topo do script rss2html.php
// Checks to see if this script was called by the main site pages, (i.e. index.php or mobile.php) and if not, then sends to main page
session_start();
if(isset($_SESSION['views'])){$_SESSION['views'] = $_SESSION['views']+ 1;} else {$_SESSION['views'] = 1;}
if($_SESSION['views'] > 1) {header("Location: http://website.com/index.php");}
fonte
robots.txt
? Pode levar algum tempo para os robôs lerem a versão atualizada.rss2html.php
sendo usado pelo seu site? via PHP incluem, redireciona, Ajax ....?file_get_contents
...? Parece um pouco estranho. O arquivo está em outro servidor ou algo assim?Respostas:
Se
rss2html.php
não estiver sendo usado diretamente pelo cliente (ou seja, se o PHP estiver sempre usando-o em vez de ser um link ou algo assim), então esqueça de tentar bloquear bots. Tudo o que você realmente precisa fazer é definir uma constante ou algo na página principal e depoisinclude
o outro script. No outro script, verifique se a constante está definida e solte um erro 403 ou uma página em branco ou o que for, se não estiver definida.Agora, para que isso funcione, você precisará usar,
include
e nãofile_get_contents
, pois o último lerá apenas o arquivo (se você estiver usando um caminho local) ou será executado em um processo totalmente diferente (se você ' re usando um URL). Mas é o método que coisas como Joomla! usa para impedir que um script seja incluído diretamente. E use um caminho de arquivo em vez de uma URL, para que o código PHP ainda não seja analisado antes de tentar executá-lo.Melhor ainda seria
rss2html.php
sair da raiz do documento, mas alguns hosts dificultam a execução. Se essa é uma opção depende da configuração do seu servidor / host.fonte
Você pode configurar seu script para gerar um erro 404 com base na sequência de agentes do usuário fornecida pelos bots - eles receberão a dica rapidamente e o deixarão em paz.
Pesquise seus logs e rejeite o Bingbot etc. de maneira semelhante - ele não interromperá as solicitações, mas poderá economizar alguma largura de banda - dê ao googlebot uma amostra de seu próprio remédio - Mwhahahahaha!
Atualizada
Olhando para o seu código, acho que seu problema está aqui:
Se eles são bots maliciosos, podem vir de qualquer lugar, remova essa
$ipaddress
cláusula e jogue uma resposta 301 ou 404 neles.Pensando bem ao lado da caixa
O Googlebot não entende formulários - ou - javascript, para que você possa gerar dinamicamente seus links ou fazer com que os usuários cliquem em um botão para acessar seu código (com um token adequado anexado).
<a href="#" onclick="document.location='rss2html.php?validated=29e0-27fa12-fca4-cae3';">Rss2html.php</a>
fonte
Solicitações de sites de limite / bloqueio de PHP para spiders / bots / clientes etc.
Aqui eu escrevi uma função PHP que pode bloquear solicitações indesejadas para reduzir o tráfego do site. Bom para aranhas, bots e clientes irritantes.
CLIENTE / Bloqueador de Bots
DEMO: http://szczepan.info/9-webdesign/php/1-php-limit-block-website-requests-for-spiders-bots-clients-etc.html
CÓDIGO:
fonte
É provável que seu site esteja sendo indexado por bot (s) falso (s) do Google. Você pode tentar adicionar um cheque e servir 404 para todos os pedidos falsos de bot do Google.
Aqui está um artigo que explica como verificar o Googlebot: http://googlewebmastercentral.blogspot.com/2006/09/how-to-verify-googlebot.html
Além disso, você pode verificar seus registros em relação aos bots falsos conhecidos: http://stopmalvertising.com/security/fake-google-bots.html
fonte
Você deve realmente garantir, em primeiro lugar, que qualquer página solicitada a um agente do usuário, seja qual for o rastreador abusivo que você possui, receberá uma página estática.
Um apache mod_rewrite com uma condição ou equivalente ao seu servidor http. Para o apache, algo como isto:
fonte
Para continuar na postagem de smassey, você pode colocar várias condições:
Dessa forma, os bots ainda acessam suas páginas, mas não apenas essa. Como é estranho que os bots (legítimos) não cumpram as regras, você tem referenciadores que enviam bots para sua página de outras fontes (encaminhamento de nome de domínio, ...)
fonte
Eu resolvi o mesmo problema com o script disponível em http://perishablepress.com/blackhole-bad-bots/ . Com essa abordagem de buraco negro, coletei uma lista de ip malicioso e, em seguida, usei o .htaccess. (O que não é obrigatório, já que o próprio script faz o banimento. Mas preciso reduzir a carga do servidor, evitando a análise de php para ips indesejados conhecidos) em três dias, meu tráfego diminuiu de 5 GB por dia para 300 MB, o que é silencioso.
Verifique esta página também para obter a lista completa de regras do htaccess para bloquear muitos bots de lixo eletrônico conhecidos. http://www.askapache.com/htaccess/blocking-bad-bots-and-scrapers-with-htaccess.html
fonte
Este script não faz o que o comentário diz, na verdade, faz o contrário. Isso sempre deixará os bots passarem, já que a variável da sessão nunca será definida quando o bot solicitar seu script. Tudo o que ele fará é impedir que solicitações legítimas (do index.php ou mobile.php) chamem o script mais de uma vez.
Para impedir que um bot acesse seu script, você só deve permitir o acesso se uma variável de sessão (ou cookie) estiver realmente definida. Supondo, é claro, que o bot (malicioso) não aceite cookies. (Sabemos que o verdadeiro Googlebot não.)
Como já foi mencionado, colocar rss2html.php acima da raiz da web (fora do espaço público) impediria que um bot acessasse o script diretamente - mas você diz que isso causa outros problemas? Ou, coloque-o em um diretório e proteja esse diretório com .htaccess. Ou você pode proteger o próprio arquivo no .htaccess de solicitações diretas?
fonte
Vá configurar seu domínio no Cloudflare (serviço gratuito para isso). Eles bloqueiam bots maliciosos no nível do domínio antes de atingirem o servidor. Demora cerca de 20 minutos, nunca precisa usar o código.
Eu uso este serviço em todos os meus sites e em todos os sites clientes. Eles identificam bots maliciosos com base em várias técnicas, incluindo a alavanca do projeto Honey pot.
fonte
O que você precisa fazer é instalar um certificado SSL em seu servidor para apache / nginx / email / ftp. Ative o HSTS e também é necessário editar seu arquivo ssl.conf para que o SSLv2 SSLv3 TLSv1 seja desativado e não permita conexões de entrada. Fortaleça seu servidor da maneira certa e você não terá problemas com os bots.
fonte