Existem técnicas modernas de gerar desafios CAPTCHA textuais (para que a pessoa precise digitar o texto correto) que possam facilmente enganar a IA com alguns métodos de ofuscação visual, mas ao mesmo tempo os humanos possam resolvê-los sem qualquer esforço?
Por exemplo, estou falando da simples capacidade de reconhecer texto incorporado à imagem (sem considerar plugins externos como flash ou java, classificação de imagem etc.) e re-digitar o texto que foi escrito ou algo semelhante.
Acho que adicionar ruído, gradiente, girar letras ou alterar cores não são mais métodos confiáveis, pois podem ser quebrados rapidamente.
Alguma sugestão ou pesquisa foi feita?
image-recognition
research
ocr
kenorb
fonte
fonte
Respostas:
É uma pergunta interessante sobre o que torna os humanos únicos. Há um bom livro sobre o assunto intitulado O que os computadores não podem fazer por Hubert Dreyfus .
Uma tarefa que um computador não pode lidar (pelo menos por enquanto) é classificar coisas importantes. Por exemplo, o CAPTCHA pede que você ordene uma lista aleatória de itens (itens pequenos, cinco ou seis) por importância. Esse exercício específico exige que a IA tome decisões (nem sempre racionais) com base no julgamento humano.
fonte
Um método que poderia funcionar é utilizar ilusões de ótica, como uma em que duas linhas no corredor são idênticas, mas uma parece mais longa para o olho humano; então, elas podem ser solicitadas com uma pergunta de múltipla escolha sobre o estado da linha, que deve ser nossos olhos parecem mais longos, mas para um computador, ainda é o mesmo comprimento de linha. Obviamente, sempre existe a questão de as pessoas com deficiência ocular não conseguirem completá-las, mas diferentes ilusões podem ser usadas para acomodar isso.
Exemplo
fonte
Faça com que a etiqueta do usuário destaque objetos no vídeo que um classificador de última geração não pode resolver
Crie um classificador de vídeo de última geração. É possível treiná-lo nos dados de treinamento em vídeo do YouTube-8M do Google . Mas você também deseja alimentar continuamente o vídeo original.
Faça com que o classificador rotule o máximo de objetos possível. Faça com que isole quais objetos ele pode reconhecer como objetos, mas que não pode rotular.
Faça com que ele produza vídeos que descrevam os objetos. De preferência GIFs, que podem ser facilmente incorporados em formulários.
Para 100 deles, pergunte a 100 usuários qual é o objeto. Se 90% dos usuários concordarem com o nome de um objeto, adicione esse vídeo ao conjunto de captcha. Chame isso de conjunto pré-treinado.
Sempre que um usuário precisar se autenticar, mostre a ele um dos objetos destacados em um vídeo que não seja do conjunto pré-treinado . Se a imagem tiver menos de 100 exibições, grave a etiqueta e dê ao usuário outra do conjunto pré-treinado. Se eles acertarem, deixe-os passar, se não, dê-lhes outro do conjunto pré-treinado.
Quando o vídeo não pré-treinado tiver mais de 100 apresentações e mais de 90% dos usuários do captcha concordarem, adicione esse vídeo ao conjunto pós-treinado.
Com o tempo, remova lentamente o conjunto pré-treinado. Coloque as expirações em cada vídeo no conjunto pós-treinado e remova-as após a expiração, para que elas não sejam usadas muitas vezes.
Idealmente, esse processo melhoraria constantemente o classificador de vídeo, mantendo-o no estado da arte e um pouco à frente de outros classificadores. Talvez também pudesse favorecer palavras e objetos menos comuns e coisas mais esotéricas, de modo a especializar esse classificador contra outros classificadores.
O mesmo poderia ser feito para a rotulagem de imagens, mas a utilidade do classificador de vídeo provavelmente durará mais, dados os avanços na IA.
Estritamente falando, porém, com exceção de alguns truques quânticos, não existe um sistema captcha que um dia não seja resolvido por sistemas externos de IA.
(edit: oh, eu acabei de notar que você disse especificamente "captcha textual". Se é isso o que você quer dizer, então não, acho que a classificação do texto ainda tem muito mistério. Os computadores provavelmente podem extrair o texto das imagens melhor do que os humanos agora. Mas tecnicamente, a entrada no sistema captcha descrito acima é textual.)
fonte