Como sites grandes (por exemplo, Wikipedia) lidam com bots que estão por trás de outro mascarador de IP? Por exemplo, na minha universidade, todo mundo pesquisa na Wikipedia, dando-lhe uma carga significativa. Mas, até onde eu sei, a Wikipedia só pode saber o IP do roteador da universidade; portanto, se eu configurar um bot "desencadeado" (com apenas um pequeno atraso entre solicitações), a Wikipedia poderá banir meu bot sem banir toda a organização? um site pode realmente banir um IP atrás de uma rede organizacional?
web-crawler
user4052054
fonte
fonte
Respostas:
Não, eles banirão o IP público e todos os que tiverem NAT nesse IP também serão banidos.
Embora pelo menos Na pilha, se acharmos que vamos proibir uma faculdade ou algo assim, entraremos em contato com o abuso deles para que eles localizem o agressor e parem o problema.
fonte
Um site não pode banir diretamente um IP que esteja atrás do NAT. Ele poderia atuar em IPs passados por proxies HTTP sem anonimato - quando esse proxy encaminha uma solicitação, normalmente anexa esse endereço a um cabeçalho X-Forwarded-For, portanto, se o acesso da sua rede privada realmente precisa passar por um proxy o IP interno pode ser exposto; no entanto, a maioria dos sites (inclusive a Wikipedia) não confiaria nas informações desse cabeçalho, porque é fácil falsificar implicitamente IPs inocentes ou evitar proibições.
Existem outras técnicas que tentam identificar exclusivamente usuários independentemente do endereço IP. Você pode interrogar um navegador da Web para obter muitas informações sobre ele e o sistema em que está sendo executado, como o agente do usuário, a resolução da tela, a lista de plugins etc. - consulte https://github.com/carlo/jquery- impressão digital do navegadorpara um exemplo disso na prática. Você pode usar essas impressões digitais para controlar o acesso, embora, dependendo do design do site, possa interagir com ele sem se envolver no processo de impressão digital, e mesmo que você não consiga, um bot pode fornecer dados espúrios e aleatórios para evitar ter impressão digital consistente, se você souber que esse tipo de proteção está em vigor. Esse método de controle também corre o risco de falsos positivos, especialmente quando se trata de dispositivos móveis, onde provavelmente haverá um grande número de clientes executando clientes de estoque idênticos em hardware de estoque idêntico (a maioria das pessoas em um modelo específico de iPhone executando uma versão específica do iOS , por exemplo, provavelmente obteria a mesma impressão digital).
fonte
Geralmente, o endereço IP não é informação suficiente para uma proibição correta. Redes tão avançadas trabalham no alto da pilha de rede.
Um ataque de negação de serviço (DoS) (que você está preocupado em criar) geralmente é tratado pela taxa que limita a configuração inicial da conexão TCP. Isso significa que os usuários legítimos que estão dispostos a esperar passarão, enquanto aqueles que estão apenas tentando consumir recursos do servidor ficam mais lentos a ponto de se tornarem inofensivos. É aqui que o DoS evoluiu para um ataque de DoS distribuído (DDoS).
Depois de conectar-se ao servidor, você pode fazer quantas solicitações desejar, a administração do servidor da web pode configurar quantas solicitações serão tratadas.
O servidor da Web provavelmente pode lidar com mais capacidade do que o seu gateway de rede local de qualquer maneira, provavelmente esse é o fator limitante no seu caso de uso. Aposto que os administradores de rede da universidade bateriam à sua porta antes da Wikipedia.
É importante ser um bom cidadão da Internet, para adicionar um código limitador de taxa a um bot.
Também deve ser destacado que a Wikipedia oferece despejos de dados para que não seja realmente necessário arrastar o site.
fonte