Detectar a fala humana em áudio em tempo real em telefones celulares

Estou procurando desenvolver um aplicativo Android. Como parte da funcionalidade, o aplicativo precisaria coletar aleatoriamente de 3 a 5 segundos de áudio e classificá-lo como contendo fala humana ou não. Entendo que esse conceito é chamado de detecção de atividade de voz?

Qual seria a melhor maneira de implementar isso em um telefone móvel? Desenvolvi um sistema básico usando recursos e limites baseados em energia. Espero encontrar algo menos suscetível ao ruído, provavelmente usando recursos como MFCC ou formants? Passei por vários papéis, mas a maioria deles exigiria que eu coletasse dados e treinasse modelos. Existe alguma biblioteca ou estrutura que eu possa usar que funcione em tempo real?

audio speech real-time Dony George
fonte

Respostas:

Acredito que o speex em http://www.speex.org/ código-fonte aberto contenha VAD. Tente ver se você pode vê-lo e obter algumas idéias de implementação, obedecendo a sua licença.

VladP
fonte