Como a recaptcha sabe que você não está inserindo traduções falsas das fotos [fechado]

22

Pelo que entendi, Captchas são textos que foram distorcidos pela aplicação de filtros, ruído e outros algoritmos miscelâneos. Portanto, para descobrir se a capacidade de leitura da pessoa é a de uma pessoa, você compara o que ela respondeu com a resposta conhecida.

Agora, lendo o ReCaptcha, ele diz que as palavras exibidas são aquelas que não podem ser traduzidas pelo OCR. Além disso, recaptcha está sendo usado para traduzir essas imagens. Como saber se você está realmente certo em sua leitura ou está apenas inventando coisas?

Se soubesse o que dizia, não seria usado no recaptcha como material de tradução. Se não souber o que o texto diz, como validará sua resposta?

Suponho que essa seja provavelmente uma análise baseada em probabilidade com grandes tamanhos de amostra antes de sinalizar qualquer coisa como traduzida.

Alguém sabe onde está a resposta para isso?

Zigu
fonte
3
De interesse é a brincadeira 4chan / anônima na pesquisa Time. "Bolo de mármore, também o jogo", que explorou falhas na verificação de crowdsourcing da segunda palavra.
DanBeale
2
O hack @Dan mentioend: musicmachinery.com/2009/04/27/moot-wins-time-inc-loses
BlueRaja - Danny Pflughoeft #

Respostas:

33

As páginas dos livros são digitalizadas basicamente fotográficas e depois transformadas em texto usando o "Reconhecimento Óptico de Caracteres" (OCR) e alimentadas na Web na forma de uma imagem com uma palavra conhecida pelo programa de computador por trás do reCAPTCHA e uma palavra que não é ainda conhecido.

O usuário digita as duas palavras e, se resolver a resposta cuja resposta é conhecida, o sistema assume que a resposta está correta para a nova. O sistema fornece a nova imagem a várias outras pessoas para determinar, com maior confiança, se a resposta original estava correta. Portanto, o sistema é um serviço de auto-aperfeiçoamento que melhora com o tempo.

http://www.google.com/recaptcha/learnmore

Paulo
fonte
22

É por isso que o reCaptcha introduz duas palavras. Uma das palavras já é conhecida e uma delas não é conhecida. A aprovação ou reprovação do captcha depende apenas de como você responde pela palavra que é conhecida. Sua resposta para a outra palavra (desconhecida) será usada, juntamente com outras respostas para a mesma palavra, para transformá-la em uma palavra conhecida.

Joel Coehoorn
fonte
4
... é também por isso que, com o tempo, fica cada vez mais frustrante de usar e convence você de que é um idiota / robô quando falha pela 5ª vez consecutiva. :-(
Sirex
Estranho ... nunca falhei em um que me lembre, talvez apenas sorte da minha parte.
Paul
@ Sirex Eu costumava pensar isso, mas depois percebi que isso só é verdade se o tamanho do texto do corpus for constante ou diminuindo em relação ao número de entradas captcha. A verdade é que o texto do corpus está crescendo ... a questão é se esse crescimento acompanha o crescimento do uso excessivo de captcha.
Joel Coehoorn
Sim, eu acho. Eu já vi muitas reCaptchas que são insanamente difíceis. Onde até a palavra conhecida é ambígua.
Sirex