Leitura labial automatizada: inferindo o que alguém está dizendo, com base no vídeo deles falando

7

Alguns seres humanos conseguem ler muito bem os lábios: observando alguém que está falando, eles podem dizer o que o falante está dizendo (mesmo sem ouvir o discurso).

Houve algum trabalho na construção de software para leitura labial? Em outras palavras, dado um vídeo de alguém falando, é possível criar um software para inferir o que a pessoa está dizendo (com acesso apenas ao fluxo de vídeo, sem áudio)? Houve alguma pesquisa sobre esse problema ou mesmo sistemas implantados?

Antecedentes e motivação: nos EUA, certas leis podem proibir a gravação de áudio sem consentimento. No entanto, geralmente não há proibição de gravar vídeo sem o consentimento das pessoas que estão sendo gravadas. (É por isso que você vê câmeras de vigilância em todo o lugar, e porque elas gravam apenas vídeo, mas nunca áudio.) Estou curioso para saber se a tecnologia avançou o suficiente para que, somente a partir do vídeo, seja possível que métodos automatizados digam o que as pessoas estão dizendo - ou se isso pode se tornar viável no futuro próximo. E, além das implicações de privacidade, essa tecnologia pode ser bastante útil.

DW
fonte

Respostas:

3

Parece haver algum trabalho nessa área. Veja, por exemplo, este artigo e suas referências. Existem também demonstrações de sistemas implementados no youtube, veja, por exemplo, este vídeo

adrianN
fonte
2

Há alguns trabalhos recentes aqui:

LipNet: Lipreading em nível de sentença . Yannis M. Assael, Brendan Shillingford, Shimon Whiteson e Nando de Freitas.

Eles atingem 93% de precisão em um corpus de vídeos de 3 segundos com a cabeça falante, em comparação com a precisão de 52% de leitores humanos experientes. Eles têm um vídeo demonstrando seus resultados.

DW
fonte