Meu problema é que eu não conheço a energia do ruído de fundo, então não posso simplesmente limitar a energia. O processamento é feito em tempo real e tenho cerca de 500 ms para decidir. Idealmente, eu gostaria que consoantes silenciosas fossem consideradas não-silêncio.
audio
speech-recognition
Michael Litvin
fonte
fonte
Respostas:
Há vários parâmetros que você pode observar:
Eu acho que uma combinação desses três deve fornecer um esquema de detecção bastante robusto.
fonte