De que maneiras podemos distinguir entre um comportamento humano e um bot?

Atualizado com base nos comentários:

De que maneiras podemos distinguir um ser humano que realiza determinadas atividades on-line e um bot programado para realizar atividades semelhantes, como verificar e-mail, baixar alguns arquivos de música, fazer compras no ebay, pesquisar no Google etc. ou talvez tentar desfigurar / invadir um site , força bruta uma senha de login etc.

Para limitar o escopo da questão e torná-lo mais claro, vamos restringir nossas observações apenas ao comportamento orientado à rede, alguns exemplos sendo: a quantidade de tempo gasto com XYZ online, a quantidade / tipo de dados baixados (digamos) de um site de compartilhamento de arquivos, o número de amigos / seguidores em sites de mídia social etc.

Eu acho que deveria ser possível obter alguns 'padrões' que distinguirão o comportamento humano e o comportamento programado.

O teste de Turing não é o que estou procurando.

Que técnicas podem ser úteis aqui? Aprendizado de máquina? Teoria do jogo?

Referências a artigos acadêmicos / de pesquisa relevantes também serão boas.

machine-learning artificial-intelligence game-theory computer-vs-human pnp
fonte

Veja o teste de Turing . Veja também o projeto de Ken Regan sobre a detecção de trapaças no xadrez .

Jonas G. Drange

Uma solicitação de referência como a sua é muito ampla para o Stack Exchange - você solicita uma pesquisa de toda uma área de pesquisa! Você precisa restringir seu foco consideravelmente antes que uma questão de alcance razoável apareça. Tente conversar com seu orientador, pesquise no Google Scholar e confira este guia para melhores (re) pesquisas na Academia .

Raphael

A maneira mais comum / óbvia é um teste de desafio-resposta que é fácil para humanos, mas difícil para computadores (é claro, mas não apenas CAPTCHA ).

Esse tipo de teste é muito eficaz {1}, mas se enquadra na área HIP (Human Interactive Proofs): não é transparente.

As abordagens "simples" típicas para distinguir o tráfego de sites humanos do Bot são:

tempo necessário para preencher todos os campos e clicar no botão enviar de um formulário de entrada (frequentemente usado, mas simples de ignorar).

Observar a cadência / ritmo da comunicação é uma alternativa mais segura (esse é um dos recursos do No CAPTCHA reCAPTCHA do Google );
honeypots (ou seja, traps para bots que consistem em um link ou campo presente na página que não é visível ao olho humano)
análise da duração máxima máxima da sessão (os humanos precisam descansar) e correlação com a hora do dia (consulte Como distinguir humanos de bots em registros de pesquisa na web )

Deve-se considerar que características do bot exibem uma grande variabilidade para diferentes rastreadores / sites diferentes , portanto, é difícil derivar heurísticas determinísticas simples: sistemas baseados em regras implicam uma longa lista de regras estáticas que são difíceis de definir e manter (mesmo por especialistas) .

Técnicas de aprendizado de máquina são frequentemente usadas:

Detecção de robôs da Web: Uma abordagem de raciocínio probabilístico constrói um rede bayesiana que classifica automaticamente as sessões de log como sendo rastreadoras ou induzidas por humanos
A descoberta de sessões de robôs da Web com base em seus padrões de navegação usa o algoritmo da árvore de decisão C4.5 (após derivar os recursos da sessão)
A detecção de fraude por clique nos fluxos de pagamento por clique das redes de publicidade on-line desenvolve técnicas derivadas do Bloom Filter .
Redes neurais aplicadas para acelerar a detecção de trapaça em jogos de computador on-line adotam uma rede neural artificial para detecção de bot em MMORPG s
Usando sentimentos para detectar bots no Twitter: os seres humanos são mais opinativos que os bots? tenta Bayes ingênuo gaussiano, suporta máquinas de vetores e florestas aleatórias

Quase todas as "ferramentas" de IA / ML disponíveis foram experimentadas . O principal problema do uso dessas ferramentas supervisionadas de aprendizado de máquina é rotular o conjunto de dados de treinamento.

Mesmo restringindo a análise ao comportamento orientado à rede, essa é uma questão de enorme alcance, por esse motivo estou dando algumas palavras-chave para pesquisas adicionais.

Notas

Os ataques baseados no Machine Learning estão melhorando e os CAPTCHAs também servem como uma tarefa de referência para as tecnologias de inteligência artificial (por exemplo, The End is Nigh: Resolução genérica de CAPTCHAs baseados em texto )

Palavras-chave

HIP (Human Interactive Proofs), CAPTCHA, dinâmica de pressionamento de tecla, cadência de pressionamento de tecla, dinâmica de digitação, IDS (Sistema de detecção de intrusão), honeypot, clique em fraude, spambot

Referências

Projetando provas de interação humana amigáveis com o ser humano ( HIPs ) por Kumar Chellapilla, Kevin Larson, Patrice Simard, Mary Czerwinski (Microsoft Research)
O fim está próximo: resolução genérica de CAPTCHAs baseados em texto de Elie Bursztein, Jonathan Aigrain, Angelika Moscicki, John C.Mitchell (2014)
Autenticação de usuário de dinâmica de teclas com base no modelo de mistura gaussiana e redes de crença profunda por Yunbin Deng, Yu Zhong (2013)
Autenticação de usuário por meio de recursos de biometria de digitação de Lívia CF Araújo, Luiz HR Sucupira Jr., Miguel G. Lizárraga, Lee L. Ling e João BT Yabu-Uti (2005)
Distinguindo seres humanos de robôs em registros de pesquisa na Web por Omer M. Duskin Dror, G. Feitelson
Detecção de robôs na Web: uma abordagem probabilística de raciocínio de Athena Stassopouloua, Marios D. Dikaiakos (2008)
Uma investigação do comportamento do rastreador da WWW: caracterização e métricas por MD Dikaiakos, A. Stassopoulou, L. Papageorgiou (Computer Communications, 2005)
Descoberta de sessões de robôs da Web com base em seus padrões de navegação por Pang-Ning Tan, Vipin Kumar (2002)
Distinguindo humanos e computadores automaticamente por Luis von Ahn, Manuel Blum, John Langford (Comm. ACM, 2004)
Detectando fraudes por clique em fluxos de pay-per-click de redes de publicidade on-line por Linfeng Zhang, Young Guan (IEEE, 2008)
Problema de bots em jogos on-line por Dewanshu Jain, Alok Gupta
Redes neurais aplicadas para acelerar a detecção de trapaça em jogos de computador online por Gaspareto, Barone, Schneider (2008)
Quantificando fraudes em publicidade on-line: Ad-Click Bots vs Humans por Adrian Neal, Sander Kouwenhoven (2015)
Comparação dos algoritmos de classificação para distinguir os robôs e os seres humanos de Christian Hadiwijaya Saputra, Erwin Adi, Shintia Revina, Bina Nusantara (2014)
Usando sentimentos para detectar bots no Twitter: os seres humanos são mais opinativos que os bots? por John P. Dickerson, Vadim Kagan, VS Subrahmanian (2014)

manlio
fonte

De que maneiras podemos distinguir entre um comportamento humano e um bot?

Respostas: