Pelo que entendi, Captchas são textos que foram distorcidos pela aplicação de filtros, ruído e outros algoritmos miscelâneos. Portanto, para descobrir se a capacidade de leitura da pessoa é a de uma pessoa, você compara o que ela respondeu com a resposta conhecida.
Agora, lendo o ReCaptcha, ele diz que as palavras exibidas são aquelas que não podem ser traduzidas pelo OCR. Além disso, recaptcha está sendo usado para traduzir essas imagens. Como saber se você está realmente certo em sua leitura ou está apenas inventando coisas?
Se soubesse o que dizia, não seria usado no recaptcha como material de tradução. Se não souber o que o texto diz, como validará sua resposta?
Suponho que essa seja provavelmente uma análise baseada em probabilidade com grandes tamanhos de amostra antes de sinalizar qualquer coisa como traduzida.
Alguém sabe onde está a resposta para isso?
Respostas:
As páginas dos livros são digitalizadas basicamente fotográficas e depois transformadas em texto usando o "Reconhecimento Óptico de Caracteres" (OCR) e alimentadas na Web na forma de uma imagem com uma palavra conhecida pelo programa de computador por trás do reCAPTCHA e uma palavra que não é ainda conhecido.
O usuário digita as duas palavras e, se resolver a resposta cuja resposta é conhecida, o sistema assume que a resposta está correta para a nova. O sistema fornece a nova imagem a várias outras pessoas para determinar, com maior confiança, se a resposta original estava correta. Portanto, o sistema é um serviço de auto-aperfeiçoamento que melhora com o tempo.
http://www.google.com/recaptcha/learnmore
fonte
É por isso que o reCaptcha introduz duas palavras. Uma das palavras já é conhecida e uma delas não é conhecida. A aprovação ou reprovação do captcha depende apenas de como você responde pela palavra que é conhecida. Sua resposta para a outra palavra (desconhecida) será usada, juntamente com outras respostas para a mesma palavra, para transformá-la em uma palavra conhecida.
fonte