tráfego ilegítimo do agente de usuário Mozilla / 5.0 (Windows; U; Windows NT 5.1; en-US; rv: 1.9.0.10) Gecko / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729)

Este é um evento que muda rapidamente e ainda não tem resposta.

Por favor, não publique suas descobertas ou suposições como respostas; reserve o campo de resposta para quando você realmente tiver uma resposta.

Se você tiver algo novo a adicionar, edite-o diretamente na pergunta.

Desde o início do ano, estou recebendo muito tráfego com o agente do usuário:

Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729).

Meus logs de acesso mostram 40% a 60% desse agente de usuário. Isso é estranho porque o agente do usuário declara um navegador Firefox 3.0.10 (alguém está usando esse navegador em 2012? Definitivamente, não entre 40% e 60% dos visitantes em um site normal).

Além disso, os logs mostram que esse agente do usuário solicitou apenas o documento HTML e nenhum recurso referenciado, como imagens, arquivos css, js.

Eu verifiquei os IPs desses pedidos (com esse UA). Está vindo de todo o mundo. Reconheci que esses IPs às vezes têm um agente de usuário móvel.

Portanto, minha suspeita é um aplicativo móvel que está fazendo muitos "pedidos de aranha". Seria bom saber a causa raiz do tráfego desse agente de usuário.

Alguém pode identificar a causa raiz?

Nas últimas duas semanas, reconhecemos que o tráfego desse UA caiu e outro tráfego aumentou. Parece que o bot / rastreador agora está usando um UA mais comum e, portanto, é mais difícil de bloquear. Eu vi alguém dizendo isso em uma resposta a esta pergunta, mas ela foi removida quando o serverfault decidiu reorganizar essa pergunta.

Respostas antigas como referência

Atualização de Dee

Eu administro meu próprio site altamente trafegado e estou vendo exatamente a mesma coisa em nossos logs do apache há um mês ou mais (não tive a chance de verificar ainda mais). 40% de todos os pedidos é a porcentagem que estou vendo, o que é loucura, obviamente.

E também notei que as solicitações sempre parecem dizer que o navegador solicitante não suporta compactação gzip - resultando em todas as solicitações de páginas da Web sendo enviadas sem compactação e nosso uso de largura de banda disparando pelo telhado!

Mas até agora não consegui determinar o que realmente está acontecendo - tudo o que suspeito até agora é que pode ser algum tipo de servidor proxy ou algo parecido com um dispositivo móvel que está enviando uma cadeia falsa de agente do usuário.

EDITADO PARA ADICIONAR: Acabei de fazer mais algumas pesquisas e parece que pode ser um software antivírus: http://www.webmasterworld.com/search_engine_spiders/4428772.htm

Atualização de jamur21

Sim, notamos tráfego semelhante em vários sites.

Ainda estamos procurando a causa raiz, mas algumas de nossas descobertas incluem:

Se é uma aranha, está fazendo um trabalho muito ruim. Parece martelar apenas um ou dois URLs por domínio por um tempo (talvez algumas horas), até que ele passe para outro URL. O conteúdo é sempre relativamente "atual", no entanto, o que confere credibilidade ao Google Notícias como um fator, conforme postado no link que Dee postou em sua resposta (todos os nossos sites são sites de notícias).
Embora os IPs estejam espalhados geograficamente, para nós, a maioria deles parece localizada perto do site de origem (a maioria dos nossos sites são agências de notícias locais, para que não recebam muito tráfego nacional). Quase nenhum dos pedidos vem de fora dos EUA. Novamente, isso dá credibilidade aos URLs que estão sendo sugados do Google Notícias (acho que as pessoas que localizaram o Google Notícias por código postal verão nosso conteúdo).
Na maioria das vezes, os pedidos podem ser reduzidos como ruído de fundo (ainda que especialmente barulhento), mas algumas vezes por dia aumentamos e esse UA sozinho representa ~ 100mbps de tráfego por cerca de 15 a 30 minutos.
Infelizmente, embora o Google Notícias pareça um possível vetor para esses URLs serem descobertos, tudo o que vimos é circunstancial e ainda não temos nenhuma arma de fumaça para saber exatamente como ou por que esses URLs estão sendo martelados.

Atualização de Bannow Bay

A aparição na primeira página do Google News nos EUA é um gatilho para esse tráfego - cerca de 75% pretende ser dos IPs dos EUA. Mas seja o que for, está fazendo grandes esforços para se obscurecer. E isso não é amigável.

Também não encontramos armas de fumar - mas um grande fornecedor de segurança concordou em investigar mais em nosso nome.

Atualização de Artem Russakovskii

Aconteceu o mesmo com um site de notícias (AndroidPolice.com) pela primeira vez. Cerca de 10 minutos dessas solicitações aleatórias que elevaram o QPS a mais de 5000% da nossa média (5000qps, que é o limite do NodeBalancer do Linode). A CPU começou a ficar ociosa quando as solicitações estavam consumindo E / S e rede - era um DDOS real.

Eu realmente gostaria de chegar ao fundo disso, mas no momento parece completamente intrigante.

Atualização de Mark

Apenas adicionando um +1. Estamos vendo o mesmo comportamento em nosso site. Não há muitas informações novas a serem adicionadas aqui, mas aqui está a forma geral do nosso tráfego:

O tráfego é altamente distribuído. O tráfego é proveniente de mais de ~ 60k IPs exclusivos.
Grande parte do tráfego atinge um único URL, geralmente um URL recente listado no Google Notícias (embora o Google Notícias nem sempre pareça ser o vetor)
Todo esse tráfego é proveniente do mesmo agente de usuário do Firefox / 3.0.10, conforme observado neste tópico, embora tenhamos visto alguns agentes móveis incomuns aqui e ali.
Todo o tráfego proveniente deste agente não contém dados de referência.
A explosão ocorre uma ou duas vezes por semana durante 30 a 60 minutos e depois desaparece.

Atualização de Don Ireland

O último post foi 13 de abril, mas o tráfego certamente não terminou. A parte mais estranha disso pode ser o fato de que qualquer autor de malware que se preze poderia (certamente) usar uma string de agente de usuário de um navegador moderno, tornando a defesa de agente de usuário de bloco inútil. Esse fato faz parecer que um agregador de notícias 'inofensivo' ou algum outro aplicativo é a fonte. Até agora, porém, também não consegui chegar a nenhuma conclusão real e espero que alguém com informações a publique aqui.

Estamos vendo o mesmo padrão, com uma história escolhida pelo google news seguida por picos de tráfego muito altos solicitando a história (mas não arquivos acessórios, como imagens). O tráfego de resposta de saída causa picos que podem saturar a rede (ou causaram, até que começamos a responder com apenas um erro 503). Esses ataques (como mais podemos chamá-los?) Duram cerca de 30 minutos, em média, mas histórias muito populares podem ter tráfego intenso por uma hora ou mais (estou falando do tráfego do firefox 3.0.10, é claro que o tráfego normal também permanece alto por um tempo).

Em um período de uma hora (para um único servidor em um grupo com balanceamento de carga), vimos 200.000 solicitações, das quais 97.000 eram solicitações do firefox 3.0.10, quase 50% de todas as solicitações. E quando você considera que normalmente uma página gera 10 ou mais solicitações para o arquivo principal e os arquivos de acessórios, os 97.000 teares são muito maiores. Noto que dos 97.000 havia 51.000 endereços IP exclusivos. E eu estou falando de uma única hora (na verdade, foi mais perto de 45 minutos). O que quer que esteja causando isso é bastante difundido.

Atualização do usuário119708

Temos o mesmo problema em um enorme site de notícias francês de alta tecnologia.

Sempre que uma notícia é publicada e visível no google news, o tráfego aumenta muito com as notícias de 50 a 100 visitas por IP e agente de usuário "Mozilla / 5.0 (Windows; U; Windows NT 5.1; en-US; rv: 1.9.0.10 ) Gecko / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729) ".

Todos os endereços IP parecem estar localizados na França ou em países franceses e não possuem referenciador. Parece ser um bot, mas por que um único endereço remoto precisa retornar 50 ou 100 vezes nas mesmas notícias durante alguns minutos? Poderia ser computadores infectados? Por que o fenômeno aparece quando as notícias são visíveis no google news? O Google é responsável por esse tráfego estranho?

Se alguém neste tópico encontrou a explicação, acho que ajudaria muitos sites médios ou grandes a controlar seu tráfego!

EDIT: http://2bits.com/botnet/botnet-hammering-web-site-causing-outages.html Se realmente é computadores infectados, é muito preocupante, dado o número de endereços envolvidos. Implementaremos este script para o Apache bloquear todo o tráfego:

# Referer is empty
RewriteCond %{HTTP_REFERER} ^$

# User agent is bogus old browser
RewriteCond %{HTTP_USER_AGENT} "Gecko/2009042316 Firefox/3.0.10"

# Forbid the request
RewriteRule ^(.*)$ - [F,L]

Atualização de Ernesto

O site de notícias geral espanhol médio, notou um tráfego intenso em algumas notícias irrelevantes desde alguns dias.

Quem quer que seja, ele carrega o HTML completo, conforme notamos devido à contagem de "visualizações da página" que incrementamos por meio de atualizações do banco de dados após o carregamento da página.

Percebemos apenas um ou dois URLs segmentados por dia.

Muitas solicitações (7000 a 12000) na mesma URL em alguns segundos, distribuídas ao longo do dia a partir de IPs diferentes. Nos próximos dias, outros URLs segmentados.

Sem referenciador.

Os artigos segmentados apareceram no Google Notícias, mas não podemos garantir que esteja relacionado.

O Google Analytics não o reconhece como tráfego legitimado. Temos artigos com mais de 8000 hits e o GA informa apenas 25 ou mais (presumo que o javascript não tenha sido interpretado).

Atualização do Old Pro

Adicionando alguns pontos de dados para você.

Bots vs. Navegadores ainda não considera este UA um bot.

No site com mais tráfego para o qual tenho logs, o uso até maio de 2012 mostra esse UA como menos de 1% do tráfego. Uma parte significativa das solicitações de UA parece legítima (carregando todos os recursos esperados, por exemplo). É basicamente o mesmo que em fevereiro de 2012.

A página inicial deste site raramente é atualizada e todo o conteúdo dinâmico é bloqueado pelo robots.txt.

Provavelmente é do Genieo. Eles atualizaram seu aplicativo para usar um novo agente de usuário: Mozilla / 5.0 + (compatível; + Genieo / 1.0 + http://www.genieo.com/webfilter.html ). Ele atinge o mesmo padrão que o agente do usuário original, mas agora eles parecem se identificar. Se você olhar para o URL no agente do usuário, eles até reconhecem que podem estar ou ainda estão gerando muito tráfego para determinados sites. - dflaw

Atualização de Mike Fagan

Estamos lutando contra o que assumimos serem ataques DDOS há semanas. Nós começamos a ver o Genieo como o agente do usuário para esses ataques. Anteriormente, vimos "Mozilla / 5.0 (Windows; U; Windows NT 5.1; en-US; rv: 1.9.0.10) Gecko / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729)" e várias solicitações de " Mozilla / 5.0 (Windows NT 6.1; rv: 11.0) Gecko / 20100101 Firefox / 11.0 ". 10k + IPs diferentes, mais de 1 milhão de solicitações por dia para apenas 3 ou 4 páginas, nas quais o mesmo IP solicitava páginas mais de 100 vezes e não puxava nenhum recurso ou anúncio adicional. Minha conclusão é que nenhum desses IPs realmente foi para outras páginas do nosso site.

Entrei em contato com Genieo e esta é a resposta deles:

"Obrigado por nos contatar.

A versão antiga do Genieo pode ter causado o tráfego que você descreve. Pedimos desculpas por qualquer inconveniente que isso possa ter causado. Lançamos e atualizamos ontem que abordam isso, o carregamento de dados do nosso aplicativo deve desaparecer nas próximas 24 horas. Acreditávamos que estávamos prestando um bom serviço ao seu site, apresentando-o a novos usuários. Não avaliamos adequadamente que, conforme nossa base de instalação está crescendo, ela pode causar sobrecarga em alguns locais.

Genieo é um jornal pessoal ou um leitor de RSS inteligente. É um leitor de RSS do lado do cliente com filtragem inteligente de personalização semântica. O aplicativo Genieo segue os dados de RSS dos sites favoritos do usuário "lê" os artigos realizando análises semânticas e os filtra em relação às áreas de interesse dos usuários. Se o artigo corresponder aos interesses do usuário, o aplicativo exibirá o título e o snippet do artigo na página inicial do usuário. Clicar no título levará ao site do artigo - seu site. O agente Genieo é autônomo (por questões de privacidade); ele é executado na máquina do usuário final, é por isso que você vê o agente acessando seu site a partir de vários IPs diferentes.

A maioria dos dados do Genieo vem de feeds RSS normais do usuário, mas o Genieo também adiciona conteúdo de novos sites de notícias que não foram registrados anteriormente pelos usuários (por acaso e diversidade). Os algoritmos Genieo procuram artigos "quentes", os principais hits do Twitter, o YouTube mais visualizado e os destaques do Google Notícias e verifica se eles correspondem ao interesse do usuário

Não sabíamos que isso estava causando problemas de carregamento em algum site. Quando isso foi levado ao nosso conhecimento, atualizamos os usuários atuais com uma nova versão que evita picos de carga.

Cumprimentos,

-Dotan

PS: Usamos o "Mozilla / 5.0 (Windows NT 6.1; rv: 11.0) Gecko / 20100101 Firefox / 11.0" no passado (devido a um erro técnico), mas todos os usuários atuais do Genieo deveriam usar os agentes do usuário Genieo (para o últimas semanas) "

website mobile-devices useragent web Mark Henderson
fonte

Você poderia adicionar à pergunta alguns dos endereços IP que aparecem nos logs?

Ricmarques 16/03/2012

Não tenho certeza se é o software antivírus AVG - porque o AVG corrigiu o problema. Além disso, ainda acho que há uma boa chance de algum aplicativo móvel estar causando esse tráfego - algum aplicativo agregador de notícias (algo como skygrid.com - mas não é o skygrid porque eles usam uma UA adequada).

user114293

Aqui estão alguns IPs de exemplo: 196.202.255.1 59.164.38.248 67.4.252.169 24.224.194.26 67.4.39.99 49.123.100.148

user114293

Sim, notamos tráfego semelhante em vários sites. Ainda estamos procurando a causa raiz, mas algumas de nossas descobertas incluem: - Se é uma aranha, está fazendo um trabalho muito ruim. Parece martelar apenas um ou dois URLs por domínio por um tempo (talvez algumas horas), até que ele passe para outro URL. O conteúdo é sempre relativamente "atual", no entanto, o que confere credibilidade ao Google Notícias como um fator, conforme postado no link que Dee postou em sua resposta (todos os nossos sites são sites de notícias). - Enquanto os IPs estão espalhados geograficamente, para nós a maioria deles parecem localizado perto do local de origem (a maioria

jamur2

Temos um grande site de notícias - nossas histórias são coletadas pelo Google Notícias várias vezes por semana. Temos recebido tráfego dessa fonte desde o final de novembro - e está crescendo semana a semana - talvez 30 milhões de impressões em fevereiro. A aparição na primeira página do Google News nos EUA é um gatilho para esse tráfego - cerca de 75% pretende ser dos IPs dos EUA. Mas seja o que for, está fazendo grandes esforços para se obscurecer. E isso não é amigável. Também não encontramos armas de fumar - mas um grande fornecedor de segurança concordou em investigar mais em nosso nome.

Bannow Bay

tráfego ilegítimo do agente de usuário Mozilla / 5.0 (Windows; U; Windows NT 5.1; en-US; rv: 1.9.0.10) Gecko / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729)

Este é um evento que muda rapidamente e ainda não tem resposta.

Alguém pode identificar a causa raiz?

Respostas antigas como referência

PS: Usamos o "Mozilla / 5.0 (Windows NT 6.1; rv: 11.0) Gecko / 20100101 Firefox / 11.0" no passado (devido a um erro técnico), mas todos os usuários atuais do Genieo deveriam usar os agentes do usuário Genieo (para o últimas semanas) "

Respostas: