Alguns seres humanos conseguem ler muito bem os lábios: observando alguém que está falando, eles podem dizer o que o falante está dizendo (mesmo sem ouvir o discurso).
Houve algum trabalho na construção de software para leitura labial? Em outras palavras, dado um vídeo de alguém falando, é possível criar um software para inferir o que a pessoa está dizendo (com acesso apenas ao fluxo de vídeo, sem áudio)? Houve alguma pesquisa sobre esse problema ou mesmo sistemas implantados?
Antecedentes e motivação: nos EUA, certas leis podem proibir a gravação de áudio sem consentimento. No entanto, geralmente não há proibição de gravar vídeo sem o consentimento das pessoas que estão sendo gravadas. (É por isso que você vê câmeras de vigilância em todo o lugar, e porque elas gravam apenas vídeo, mas nunca áudio.) Estou curioso para saber se a tecnologia avançou o suficiente para que, somente a partir do vídeo, seja possível que métodos automatizados digam o que as pessoas estão dizendo - ou se isso pode se tornar viável no futuro próximo. E, além das implicações de privacidade, essa tecnologia pode ser bastante útil.