Estou procurando desenvolver um aplicativo Android. Como parte da funcionalidade, o aplicativo precisaria coletar aleatoriamente de 3 a 5 segundos de áudio e classificá-lo como contendo fala humana ou não. Entendo que esse conceito é chamado de detecção de atividade de voz?
Qual seria a melhor maneira de implementar isso em um telefone móvel? Desenvolvi um sistema básico usando recursos e limites baseados em energia. Espero encontrar algo menos suscetível ao ruído, provavelmente usando recursos como MFCC ou formants? Passei por vários papéis, mas a maioria deles exigiria que eu coletasse dados e treinasse modelos. Existe alguma biblioteca ou estrutura que eu possa usar que funcione em tempo real?