Interpretação de User-agent vazio

12

Como devo interpretar um User-agent vazio? Eu tenho algum código de análise personalizado e esse código precisa analisar apenas o tráfego humano. Eu tenho uma lista de agentes de usuários que denotam tráfego humano e tráfego de bot, mas o agente de usuário vazio está se mostrando problemático. E estou recebendo muito tráfego com o User-agent vazio, cerca de 10%.

Além disso, criei a lista de agentes de usuários de tráfego humano versus tráfego de bot analisando meus logs atuais. Como tal, posso estar perdendo muitas entradas lá. Existe uma lista bem mantida de agentes de usuário que denotam tráfego de bot ou, inversa, uma lista de agentes de usuário que denotam tráfego humano?

Amit Agrawal
fonte
1
A lista de possíveis user-agents é incrivelmente longa. Por exemplo, veja a lista de agentes do usuário somente para celular aqui: zytrax.com/tech/web/mobile_ids.html
Max Vernon
O user agent em branco é bem raro - qual software de servidor você está usando? Como você está conseguindo o user agent? Tem certeza de que realmente está em branco ou há algum erro no seu sistema de coleta que está criando agentes de usuário em branco?
Max12:
@ Max - Estou surpreso com o agente de usuário vazio. Estou usando a pilha LAMP. Eu coleciono o agente do usuário através do PHP como $ _SERVER ['HTTP_USER_AGENT']. O código é simples; embora eu não possa desconsiderar inteiramente a possibilidade de o agente do usuário estar lá, mas meu código falhar em coletá-lo ou o banco de dados se recusar a armazená-lo, duvido que seja esse o caso.
1
Se você tiver acesso aos logs de acesso do Apache: Os user-agents registrados também estão vazios?
talvez você tenha um raspador acessando seu site? Isso pode ser uma maneira visitantes parecem não ter USER_AGENT
Max Vernon

Respostas:

5

Se você deseja analisar apenas o "tráfego humano", não contaria aqueles com sequência de agente de usuário vazia ou ausente. Na minha experiência, quase qualquer navegador sempre envia um. Até a maioria dos plugins ou extensões de privacidade é um pouco falsa (inclui outro nome de SO ou cliente) ou "normaliza" (por exemplo, sem números de release) ou aleatoriamente (por exemplo, às vezes FF, às vezes IE) as UA, mas não as remove completamente (pois isso pode ser removido) causar problemas em alguns sites que dependem dele, mesmo que isso não seja uma boa ideia.)

Uma solicitação simples sem UA pode ser feita assim:

wget --user-agent="" www.example.com

Como você vê, você pode adicionar o que quiser. Sites que armazenam e publicam UA's encontrados "na natureza" não são de grande utilidade, pois encontram muita porcaria.

Talvez alguém tenha buscado recursivamente seu conteúdo. Ou usou alguma ferramenta de SEO para analisar seu site (algumas permitem que os usuários alterem manualmente o cabeçalho, outras com a intenção de ignorar uma linha robots.txt). Coisas assim. Nessas situações, o cabeçalho do UA geralmente é falsificado para ocultar o cliente e o objetivo.

Se essas solicitações mantiverem-se constantemente, pode ser útil analisar melhor os cabeçalhos (Proxies?) Ou os IPs (Um determinado bloco? Empresa relacionada à privacidade / Proxy?)

initall
fonte
2

Eu trabalho para uma empresa de segurança e, entre outras coisas, monitoramos o tráfego de Bad Bot.

Com base na minha experiência, as visitas humanas com dados de agente do usuário em branco indicam tentativas de captura / envio de spam (geralmente captura) feitas por bots de "navegador sem cabeça".

Às vezes, esses visitantes podem executar o JS e, assim, aparecerão no GA - ainda assim, essa dose não os torna humanos :)

Peça desculpas pelo "plug", mas saiba que, se necessário, oferecemos serviços de proteção Bad Bot gratuitos - juntamente com a aceleração da CDN e outros itens.

Nesse caso específico, nosso sistema reconheceria essa visita como "suspeita", verificou-a contra vetores de ataque conhecidos e, se ainda não tiver certeza, realizou testes e desafios adicionais. Esses desafios são realizados sem problemas, sem causar atrasos na sessão.

Igal Zeifman
fonte
0

Todo software que acessa a Internet não recebe magicamente um agente de usuário. Os desenvolvedores de software precisam programar essa funcionalidade em seus softwares. Seu agente de usuário em branco significa apenas que um desenvolvedor de software esqueceu de adicionar um agente de usuário ao software.


fonte
Ou que um usuário do navegador removeu / bloqueou a string do UA.
unor 14/10/12
5
Isto está errado. Dizer "apenas significa" implica que é geralmente ou pelo menos com frequência o motivo. Poucas pessoas usam o software http cujo desenvolvedor teria ignorado a UA por preguiça. Se alguma coisa, quase sempre indica que a origem do tráfego não queria ser identificada e está profundamente associada ao tráfego malicioso ou explorador. Infelizmente, algumas grandes empresas (Facebook) usaram sequências de agentes de usuário vazias no passado, portanto, não é necessariamente aconselhável bloqueá-las completamente.
21414 jerclarke
1
@jeremyclarke +1 Este tipo de comportamento nunca deve ser esquecido! E vergonha no Facebook! Se um bot ou navegador legítimo precisar consultar um site, ele deve sempre ter um identificador. Afinal, eles estão entrando na propriedade de outra pessoa. Não ter um agente usuário é como um ladrão entrando com uma máscara para ocultar sua identidade.
Barba Branca
2
É como alguém com o rosto coberto andando de um lado para o outro pela calçada em frente à sua casa. Não é necessariamente ilegal, mas se você não atender a porta, eles não devem assumir que você é um maluco paranóico.
Jerclarke
0

Estou vendo alguns comentários nas respostas a esta pergunta comparando o User-Agent a esconder sua identidade ou ser humano. Esta é uma comparação absurda. O User-Agent não tem nada a ver com identidade ou ser humano.

Pense nisso como calçados. Você está perguntando a seus visitantes que tipo de calçado eles estão usando antes de deixá-los entrar. Os usos mais comuns disso são saber que tipo de tapete você precisa esticar, o bom tapete vermelho para sapatos limpos, o capacho feio para lamacento. botas e nenhum tapete para os visitantes que são tapetes alérgicos.

Quando os visitantes não querem dizer que calçados têm (também conhecido como User-Agent vazio), você os ignora.

Sim, existem muitas boas práticas que tentam assumir coisas sobre a solicitação da Web com base no agente do usuário e em outras informações do cabeçalho da solicitação. Eles podem funcionar muito bem 99% do tempo, mas, como em muitas outras práticas semelhantes, são propensos a falsos positivos e, portanto, prejudicam os usuários ignorantes normais.

Depois de me deparar com a questão de usar acidentalmente um agente de usuário vazio, posso dizer definitivamente que não é divertido quando um serviço da Web o trata de maneira diferente, apenas porque você não pensou em falar sobre seu calçado.

Deantwo
fonte