Como segmentar o áudio da chamada telefônica em silêncio / não silêncio?

9

Meu problema é que eu não conheço a energia do ruído de fundo, então não posso simplesmente limitar a energia. O processamento é feito em tempo real e tenho cerca de 500 ms para decidir. Idealmente, eu gostaria que consoantes silenciosas fossem consideradas não-silêncio.

Michael Litvin
fonte
6
Não tenho informações suficientes para dar uma resposta completa, mas seu problema é conhecido como detecção de atividade de voz . Não existe uma única maneira acertada de fazê-lo e, se você procurar, provavelmente encontrará várias abordagens diferentes. Talvez alguns outros possam aprofundar um pouco mais.
Jason R
@ Michael Litvin, existe uma classe de filtros não lineares (usados ​​em 'detecção de energia' com o nome de 'Teager-Kaiser'. Acho que é um subconjunto do que é conhecido como 'voltera kernels'. Desculpe, não posso fornecer nenhum . mais informações, mas se você pesquisar em torno de essas palavras que você pode encontrar o que você está procurando Eu sei que o método Teager-Kaiser é usado para 'quando' sons de baleias começam VS apenas ruído de fundo.
Spacey

Respostas:

4

Há vários parâmetros que você pode observar:

  1. Energia geral
  2. Espectro de curto prazo: a fala tem um espectro e um ruído "rosa" bastante distintos (o que ocorre nas partes que não são da fala) tende a ser branco se for eletricamente dominado ou "vermelho" (ou seja, baixa frequência pesada) se for fundo acústico ruído ou ruído do microfone
  3. Estatísticas de amplitude. A maioria dos sinais de ruído tem uma distribuição gaussiana, a fala está mais próxima de uma distribuição de Laplace

Eu acho que uma combinação desses três deve fornecer um esquema de detecção bastante robusto.

Hilmar
fonte