O reCaptcha foi quebrado / hackeado / OCR'd / derrotado / quebrado? [fechadas]

172

Algum método de programação foi usado para derrotar o reCAPTCHA?

Estou interessado em ver evidências e potencialmente demonstrações de que o reCAPTCHA em particular se tornou obsoleto por métodos totalmente automatizados e sem humanos.

Para esclarecer, não procure soluções de trapaça reCAPTCHA que envolvam os seres humanos de qualquer forma, sejam as equipes encarregadas de preencher os CAPCHAs, os que procuram pornografia ou o Mechanical Turk.

Também não estou procurando alternativas ao reCAPTCHA, como escolher o tipo de animal, campos de plano de fundo ou truques de javascript.

Dave Rutledge
fonte
18
a quantidade de informações erradas nessas respostas é espantosa. Se o ReCaptcha foi "quebrado", é melhor alguém dizer ao Facebook, Craigslist e TicketMaster, stat! : p
Jeff Atwood
15
Jeff, eles foram informados, e a única informação incorreta está se referindo ao CAPTCHA como um mecanismo de segurança válido. Foi quebrado empiricamente, tanto em implementações comuns quanto na teoria (não apenas reCAPTCHA, mas o próprio conceito de CAPTCHA). Por outro lado, não é completamente inútil, na verdade, eu me referi a este site como um caso de uso válido para o CAPTCHA - além dos muitos outros mecanismos, ele pode trabalhar em conjunto para custar um pouco os "atacantes" Mais.
Avid
13
Estou desapontado que o assunto não tem pwnednele
skaffman
2
Mais algumas pesquisas sobre o tema: schneier.com/blog/archives/2010/10/analyzing_captc.html . Na verdade, eu achei os comentários mais interessante do que o post ou investigação em si ...
Avid
9
Oo! Melhor CAPTCHA de todos os tempos! xkcd.com/810
AviD 25/10/10

Respostas:

92

Percebo que quase todas as respostas aqui se referem à ineficácia do conceito de CAPTCHA, em princípio - e, embora eu concorde com elas, de fato deu uma palestra na OWASP há alguns meses, explicando exatamente isso - a pergunta é muito específica , portanto, fornecerei uma demonstração.
Mas primeiro, vou reiterar essa demonstração de lado, reler os outros comentários, já que é verdade que o CAPTCHA é inútil e não ajuda, é irrelevante para a implementação ...

Mas realmente, confira o CAPTCHA Killer . Você pode carregar uma imagem CAPTCHA e ela fornecerá automaticamente, se não imediatamente, a resposta do OCR. Ele também fornece uma API (REST, eu acho, mas talvez também SOAP). Eu, pessoalmente, tentei várias imagens reCAPTCHA e, na verdade, foram algumas das mais fáceis (ou pelo menos mais rápidas) quebradas.

ATUALIZAÇÃO : O site do CAPTCHA Killer está desativado, aparentemente sob pressão legal. Veja http://captcha.org/ para uma visão geral completa do tópico.

E sim, o OCR não é a melhor maneira de quebrar um site protegido por CAPTCHA - existem muitas outras maneiras melhores.

Ávido
fonte
3
Eu me pergunto como o captcha killer funciona. De alguma forma, parece-me que está usando mão-de-obra barata e ganhando dinheiro com o anúncio no site. (E merchandising).
Georg Schölly 19/02/09
3
Resposta útil sobre captchas em geral, mas a pergunta era sobre reCAPTCHA especificamente.
303 Mike
2
Tentei apenas o Captcha Killer com três reCAPTCHAs. Todos os três expiraram sem retornar uma resposta.
Lfaraone 03/10/2009
21
O CAPTCHA Killer parece ter sido morto: foi violentamente destruído por empresas multinacionais que procuravam espalhar seu domínio superior e eliminar a liberdade de expressão criativa! Um assassino tão bonito, uma morte tão precoce!
Kiril
4
Eu acho que é apenas a mudança de domínio e a versão se tornar pago agora, verificar isso bypasscaptcha.com/captchakiller.php
Marmik
54

Você pode estar interessado neste relatório detalhado sobre como o 4chan derrotou o reCAPTCHA e o usou para manipular os resultados anuais da pesquisa Time 100 da Time.com .

Hacking Recaptcha (também conhecido como 'The Penis Flood')

A próxima tática usada foi verificar se eles poderiam encontrar uma falha na implementação do reCAPTCHA. Uma coisa que eles descobriram sobre o reCAPTCHA foi que ele sempre apresenta duas palavras para um usuário para decodificação - uma palavra é uma palavra de controle conhecida pelo sistema reCAPTCHA, enquanto a outra é uma palavra desconhecida (o reCAPTCHA usa os humanos para ajudar a corrigir erros de OCR). A Wikipedia descreve o processo: “O texto digitalizado é submetido à análise por dois programas ópticos diferentes de reconhecimento de caracteres; nos casos em que os programas discordam, a palavra questionável é convertida em um CAPTCHA. A palavra é exibida junto com uma palavra de controle já conhecida e é rotulada pelo ser humano. Aquelas palavras que recebem consistentemente um rótulo único por juízes humanos são recicladas como palavras de controle ”. 2iasdo4 O que o Anonymous percebeu foi que se eles sempre rotulassem o texto digitalizado desconhecido com a mesma palavra - e se o fizessem milhares e milhares de vezes, uma grande porcentagem das palavras desconhecidas seria rotulada incorretamente com a palavra. Tudo o que eles precisavam fazer era olhar para as duas palavras no captcha, inserir a etiqueta apropriada para a 'fácil' (presumivelmente seria a que os dois scanners ópticos concordariam) e inserir a palavra “pênis” para o um disco. Se eles fizessem isso com bastante frequência, logo uma porcentagem significativa das imagens seria rotulada como 'pênis' e a capacidade de auto-votação seria restaurada (um efeito colateral que não foi perdido no Anonymous) era a noção de que nos próximos anos haveria vários livros digitais com a palavra "pênis" inserida aleatoriamente ao longo do texto. Atualização: perguntei a Ben Maurer,

Otimizando o reCAPTCHA

Tão atraente quanto a noção de espalhar a palavra 'pênis' em textos, a equipe do Anonymous sabia que o tempo estava passando e, se eles estavam indo para restaurar a Mensagem, não tinham tempo para esperar que os autovotores voltassem a ficar on-line - eles teriam que votar manualmente, muitas e muitas vezes. E assim eles precisavam poder entrar no captcha o mais rápido possível. Eles desenvolveram um conjunto de diretrizes que lhes permitiam decidir rapidamente quais palavras do reCAPTCHA poderiam ser ignoradas. Por exemplo:

Você receberá duas palavras: uma real e uma falsa.

Para [REAL FAKE]ou [FAKE REAL], você pode apenas digitar REALe deve ser aceito.

Se for [LOOKSREAL LOOKSREAL]ou [LOOKSFAKE LOOKSFAKE], geralmente é mais rápido digitar as duas palavras. Não perca tempo precioso decidindo qual deles é real.

Use a aparência e o tipo de palavra para identificar uma palavra falsa. Não confie em apenas um deles.

Todo o conjunto de regras está aqui: captcha falso .

Mathias Bynens
fonte
4
Mas não é o ponto dessa história que eles não quebraram o reCAPTCHA? Eles conseguiram simplificar o processo de votação manual para permitir que determinados voluntários votassem milhares de vezes cada.
Pdc
4
@pdc, apenas porque eles não fizeram o OCR das imagens (embora isso também pudesse ter sido feito), não significa que eles não quebraram o reCAPTCHA. Pense assim: O objetivo do reCAPTCHA é apresentar imagens indecifráveis? Ou é para evitar inundações automatizadas? Se for o primeiro, você poderá argumentar que não foi quebrado (discutível, mas eu não concordo com você), mas se for o segundo - então você tem uma prova empírica de que o reCAPTCHA não funciona. Também acho que deve ficar bem claro que, além do valor do entretenimento, o SEGUNDO objetivo é o real e apenas o que conta.
AviD 28/01/10
@AviD Huh? Segundo o artigo, a inundação automatizada não era mais possível. Em vez disso, pessoas dedicadas foram capazes de votar várias vezes mais rápido do que poderiam (e várias técnicas não relacionadas a captcha foram usadas para impedir medidas ineficazes contra uma votação tão pesada por seres humanos). Basicamente equivalente ao uso de mão-de-obra humana barata - que o reCAPTCHA obviamente não pretende parar.
Home
@ToolmakerSteve é ​​exatamente esse o problema, o reCAPTCHA não tenta parar o problema real. CAPTCHA tenta resolver mal o problema errado.
AviD 18/04/19
32

A fraqueza dos sistemas CAPTCHA é que as pessoas montam salas cheias de pessoas na China cujo único trabalho é olhar para uma imagem CAPTCHA e digitar o resultado, que se conecta ao sistema automatizado que realmente está enviando spam.

Na verdade, não há muito o que fazer sobre isso.

Também é muito mais barato do que tentar fazer reconhecimento de imagem, OCR etc. na imagem real (você pode obter uma resposta por menos de US $ 0,01 de outra maneira).

cleto
fonte
62
Ou melhor ainda, eles pegam o captcha do seu site e o mostram para algum idiota (literalmente) como um requisito para mostrar a eles um pouco de pornografia.
Paul Tomblin
2
Cara ... isso é inteligente (crédito onde o crédito é devido).
Cletus
7
Observe que isso não a torna uma ferramenta ineficaz. Significa apenas que, se o seu site for popular o suficiente, isso poderá acontecer. Para os outros 99,99% dos sites do mundo, um simples captcha serve.
Robert P
1
Inferno, o captcha do CodingHorror nem muda, nem é ofuscado, e consegue fazer o trabalho corretamente!
Robert P
5
Na verdade, isso não é totalmente verdade. Embora não são exemplos disso, é FAR mais barato para OCR-rachar um CAPTCHA. O uso de suor geralmente não é economicamente viável para os remetentes de spam.
Jens Roland
21

Antes de ceder à pressão do uso do captcha, considere soluções alternativas criativas, como ter um campo chamado "Seus Comentários", oculto pelo CSS. Se o campo for inserido, a solicitação será descartada pelo servidor. A maioria dos bots cairá nessa, mesmo que ainda não exista uma boa maneira de derrotar a sala cheia de trabalhadores mal pagos, o que o captcha não ajuda em nada.

ATUALIZAÇÃO : Basta ler um estudo de caso em que a remoção do CAPTCHA aumentou as taxas de conversão em quase 10%. Isso indicaria para mim que está bastante quebrado se você estiver perdendo 10% de seus leads apenas para filtrar os bots. Imagine o que 10% significa para a maioria das empresas.

DavGarcia
fonte
2
Isso é muito inteligente, mas não funciona se você for suficientemente popular. Yahoo ou Google, por exemplo, nunca poderiam usar isso.
22410 dreeves
2
A questão aqui é se seu site é valioso o suficiente para atacar especificamente. A maioria não é, e ter poucas idiossincrasias fará algum bem.
22630 David Thornley
3
Eu +1 para a atualização re 10% de perda - ponto MUITO importante. (mas não posso +1 cuz da sugestão campo oculto - isso é menos do que inútil.)
Avid
2
Existem 2 problemas "ataque direcionado" e "spam aleatório". Sua solução pode salvar sua bunda de spam aleatório; um ataque direcionado inundará seu sistema dentro de um dia.
dr. mal
1
@ dreeves: o google não acabou de adquirir o reCAPTCHA?
Prabu
18

Meu captcha favorito é da Microsoft: http://research.microsoft.com/en-us/um/redmond/projects/asirra/

O Asirra (reconhecimento de imagem de espécies animais para restringir o acesso) é um HIP que funciona solicitando aos usuários que identifiquem fotografias de gatos e cães. Essa tarefa é difícil para computadores, mas nossos estudos com usuários mostraram que as pessoas podem realizá-la com rapidez e precisão. Muitos até acham divertido!

É um serviço gratuito e eles têm um código de exemplo para você começar.

Gostaria de saber quanto tempo levará até que seja rachado.

BoltBait
fonte
1
Infelizmente, a resposta do cletus acima mostra como esse serviço será ineficaz na maior luta contra o spam.
Erik Forbes
1
eu falhei que um 2 de 4 vezes, uma imagem mal iluminado de um Pomeranian pode olhar como um gato :(
Tom Anderson
3
Fiz o teste e é bom saber que sou humano. :)
BoltBait
5
Na verdade, o melhor captcha costumava ser o HotCaptcha - mas sua última vez offline foi verificada. Baseado em HotOrNot.com, não era terrivelmente eficaz, mas muito popular entre os usuários :-)
Avid
2
A questão aqui é que seria muito fácil aplicar força bruta devido a um pequeno espaço-chave. Se você começar a adicionar mais objetos ao nome, terá ambiguidade na nomeação (por exemplo, é um canguru, um Joey ou um canguru bebê?). Você precisaria ter uma relação de um para muitos entre os objetos a serem nomeados e seus possíveis nomes.
Oorang
11

O reCAPTACHA não está quebrado e não será por muito tempo. O problema é que, se você implementar seu próprio captcha, se estiver quebrado, provavelmente levará muito tempo para corrigi-lo.

Isso é retirado da página sobre segurança do reCAPTCHA :

O reCAPTCHA é um serviço da Web. Isso significa que todas as imagens são geradas e classificadas por nossos servidores. (…) Isso também fornece um nível extra de proteção: nossos CAPTCHAs podem ser atualizados automaticamente sempre que uma vulnerabilidade de segurança for encontrada.

Por exemplo, se alguém escreve um programa que pode ler nossas imagens distorcidas, podemos adicionar mais distorções em muito pouco tempo, e sem que os mestres da Web precisem alterar algo do seu lado.

Acredito que como eles são especializados em captchas, eles aprimoraram as versões armazenadas, prontas para serem implantadas em pouco tempo, se necessário. (Por que eles deveriam criar uma segurança mais forte quando o mais fraco ainda não está quebrado?)

Georg Schölly
fonte
9

Não apenas foi derrotado, mas também um aplicativo útil foi construído com sucesso sobre ele, para se tornar a ferramenta mais incrível para derrotar todos os tipos de proteções de conta gratuita de uma grande lista de sites de download direto (não apenas megaupload e rapidshare )

O Jdownloader é de código aberto e escrito em Java, para que uma espiada no código-fonte possa responder não apenas se ele estiver quebrado, mas também como .

Edit : A maioria dos sites de download direto não usa o reCaptcha, mas um método Captcha mais simples (3 letras maiúsculas coloridas em cores diferentes). No entanto, o Jdownloader e o Cryptload (um programa semelhante ao Jdownloader) são as únicas implementações de trabalho que eu sei que efetivamente quebraram o método Captcha. Eu não ouvi falar de nenhuma implementação para quebrar o reCaptcha.

Atualização : Parece que pelo menos uma implementação do reCaptcha (nem todo o reCaptcha em si) também foi quebrada .

Atualização Dezembro de 2010 : O Jdownloader parece finalmente estar derrotando o reCaptcha . O plug-in ainda é experimental e funciona apenas nas versões do Jdownloader para Windows, mas, como já fui informado por um colega que o tentou, ele funciona.

Fernando Miguélez
fonte
2
Você sabe qual desses criadores de arquivos usa o RE-captcha porque o rapidshare e o megaupload não.
dr. mal
@ dr.evil estava cobrindo uma lista de hosters quase tudo o que podemos dizer, como a lista continha muitos que não ouvimos, o programa foi inteligente o suficiente para quebrar a maioria dos captcha e, caso contrário, estava solicitando ao usuário o mesmo, não é útil. Eu usei isso no passado pessoalmente. Foi um dos melhores downloads em alguns casos, melhor do que o IDM. Observe: Não sou promotor do jDownloader. Obrigado
Marmik
8

Houve um discurso na Defcon no ano passado que abordou os problemas com os CAPTCHAs em geral. Uma das coisas que eles fizeram foi usar vários mecanismos de OCR gratuitos e fazê-los votar nas melhores palavras. Fazendo isso, eles foram capazes de alcançar uma chance um tanto decente de ter sucesso. Por um lado, foram 40% mais ou menos, no entanto, não acho que foi o ReCaptcha.

FryGuy
fonte
3
Esse é um ponto importante: um bot de spam não precisa quebrar todos os capthas - 1% o faria se continuar tentando.
227 Martin Martinketkett
8
  • "Na verdade, [reCAPTCHA] se tornou bastante inútil em 4 de janeiro de 2011], quando os spammers aparentemente colocaram suas mãos em um software que contorna o reCAPTCHA e permite um processo de registro totalmente automatizado. Os bots estão ocupados, muito ocupados, de fato , desde então " [1]

Há 2-3 anos, a abordagem captchas baseada em digitação de texto ultrapassou a linha quando perderam a batalha, ou seja, complicações adicionais apenas as tornam relativamente (uma vez que a energia do computador está aumentando, enquanto a humana não é) mais fácil para as máquinas e mais repugnante e repulsiva, se não completamente impossível para os humanos. Isso contradiz o paradigma original do CAPTCHA como um teste para garantir que a resposta não seja gerada por um computador

Atualização:
observe que o reCAPTCHA é de propriedade do Google Inc., mas o Google Inc. não o utiliza por seus próprios serviços.
Aqui está um link com a página da Web com o captcha usado pelo próprio Google / internamente por exemplo, para registro no Gmail:

texto alternativo



Observe que o reCAPTCHA do Google sempre tem 2 palavras.
Aqui está o link para a imagem com o reCAPTCHA do Google oferecido para ser usado por outras pessoas .

E a captura de tela do reCAPTCHA:

texto alternativo

Deixo para tirar as conclusões óbvias para um leitor.

Citado: [1]
fóruns do vBulletin atingidos pelo reCAPTCHA quebrando bot de spam | Blog do PC Pro
Publicado em 12 de janeiro de 2011 por Davey Winder

Gennady Vanin Геннадий Ванин
fonte
5

Estou vendo comentários do blog em um sistema protegido pelo reCAPTCHA, onde a página é carregada e, um segundo depois, a postagem foi feita com êxito. O User-Agent não fazia sentido (neste caso em particular, alegava estar executando o Ubuntu 9.25 / Firefox 3.8), o referenciador era de um site completamente não relacionado, sem nenhum link para nós.

Isso é claramente automatizado.

Benjamin Franz
fonte
3

O reCAPTCHA não foi derrotado. Se tivesse sido, então por que o Google acabou de comprá-lo e anunciar que aplicará a tecnologia no Google para aumentar a proteção contra fraude e spam dos produtos do Google?

do Google adquire o reCAPTCHA publicado no Blog do Google em 16/09/09:

Dessa maneira, a tecnologia exclusiva do reCAPTCHA aprimora o processo que converte imagens digitalizadas em texto sem formatação, conhecido como reconhecimento óptico de caracteres (OCR). Essa tecnologia também possibilita projetos de digitalização de texto em grande escala, como o Google Livros e a Pesquisa de arquivos do Google Notícias. Ter a versão em texto dos documentos é importante porque o texto sem formatação pode ser pesquisado, renderizado facilmente em dispositivos móveis e exibido para usuários com deficiência visual. Portanto, aplicaremos a tecnologia no Google não apenas para aumentar a proteção contra fraude e spam dos produtos do Google, mas também para melhorar nosso processo de digitalização de livros e jornais.

Mike
fonte
3

A maneira mais fácil de derrotar o Captchas é o Amazon Mechanical Turk. Há um cara chamado Kermit Welda que paga cada centavo às pessoas para registrar contas do Hotmail, AOL e Gmail. São 6.000 contas de e-mail falsas a 5 centavos = US $ 300 por dia. O custo de fazer negócios é bem barato quando outras pessoas fazem o trabalho sujo para você. Não é de admirar que os filtros de spam do nosso servidor desejem rejeitar qualquer coisa do Hotmail.

Dr. Klahn
fonte
Isso é realmente uma resposta ...?
Austin Henley
Faz sentido, algum conceito semelhante ao Death By Captcha .
kenorb
OP ha declarou claramente que não é isso que ele está procurando.
Scott Solmer
2

AFAIK Na prática, não existe uma ferramenta para quebrar a implementação do RE-captcha, no entanto, eventualmente, suponho que alguém a obtenha.

Engraçado o suficiente se alguém conseguir obtê-lo, então todo o projeto do RE-captcha é inútil porque o re-captcha projetado digitaliza livros que não podem ser executados de maneira automatizada.

BTW:

A fraqueza dos sistemas CAPTCHA é que as pessoas montam salas cheias de pessoas na China cujo único trabalho é olhar para uma imagem CAPTCHA e digitar o resultado, que se conecta ao sistema automatizado que realmente está enviando spam.

Você não pode proteger um sistema pensando assim, é como dizer "seu aplicativo da Web não é seguro o suficiente se o seu host não estiver em um antigo bunker militar, porque agora as pessoas podem roubar sua máquina".

dr. mal
fonte
3
Sua opinião é clara, mas a aplicação é equivocada: o pensamento (do comentário que você citou) é que o CAPTCHA não resolve o problema que pretende . Ou, como costumo dizer, "CAPTCHA (em geral) é uma solução ruim para o problema errado". O problema que o CAPTCHA tenta resolver (por definição) é: Como sei que o usuário é uma pessoa, não um computador? Se o CAPTCHA resolve ou não isso (não funciona), o problema REAL é: Como posso impedir a inundação em massa do meu serviço? Os farms e proxies CAPTCHA mostram a diferença exata. É por isso que qualquer solução de segurança deve começar com as ameaças.
AviD 28/01
1
Você está certo, tudo se resume "Por que você está usando o CAPTCHA?". Para alguns sistemas, é apenas segurança suficiente para alguns sistemas, nem chega perto. Mas, da mesma forma que o tamanho das chaves na criptografia ajuda a proteger algo, a forçagem bruta pode levar anos (embora eventualmente eles sejam decifrados! da mesma maneira. Então, como você disse, tudo se resume ao que você está usando CAPTCHA?
dr. mal
2

Existem muitos métodos que são usados ​​para cagar recaptcha. Embora sua rede neural difícil de usar permita que os programas os resolvam automaticamente, é possível capturar a imagem e ter o turk mecânico da amazônia ou algum programa equivalente para resolvê-los.

http://codemagician.wordpress.com/2010/01/22/solving-recaptcha/

redstick
fonte