Como a redução de ruído para reconhecimento de fala difere da redução de ruído que deveria tornar a fala mais "inteligível" para os seres humanos?

Essa é uma pergunta que me interessa há algum tempo, principalmente porque estou trabalhando na redução de ruído para um sistema de reconhecimento de fala existente.

A maioria dos trabalhos sobre técnicas de redução de ruído parece focar em como tornar a fala mais inteligível para os seres humanos ou em como melhorar termos vagos, como "qualidade da fala".

Tenho certeza de que, usando critérios como esses, você pode identificar filtros que tornam os sinais de fala ruidosos mais fáceis de ouvir para os seres humanos. No entanto, não tenho certeza de que esses critérios possam ser simplesmente adaptados ao tentar avaliar sinais de fala que foram eliminados para melhorar a precisão do sistema de reconhecimento de fala.

Realmente não encontro trabalhos que discutam essa diferença. A inteligibilidade e a qualidade da fala se correlacionam com a precisão dos sistemas de reconhecimento de fala? Existem medidas objetivas que podem avaliar quão "bom" será um sinal de fala denoised para um sistema de reconhecimento de voz, por exemplo, se também for dada a fala limpa original? Ou é a única maneira de descobrir quão boa é a sua técnica de redução de ruído, para treinar o sistema de reconhecimento de fala nos dados denoised e analisar a precisão?

Ficaria feliz se alguém pudesse me indicar a direção certa, ou talvez desse alguns papéis que discutissem isso. Desde já, obrigado!

noise speech-recognition speech-processing noise-cancellation marlonfl
fonte

Respostas:

Realmente não encontro trabalhos que discutam essa diferença.

Existem livros inteiros sobre o assunto:

Reconhecimento Automático de Fala Robusto 1ª Edição

A inteligibilidade e a qualidade da fala se correlacionam com a precisão dos sistemas de reconhecimento de fala?

Geralmente não, normalmente a redução de ruído corrompe os recursos de maneira imprevisível e reduz a precisão do reconhecimento de fala.

Existem medidas objetivas que podem avaliar quão "bom" será um sinal de fala denoised para um sistema de reconhecimento de voz, por exemplo, se também for dada a fala limpa original? Ou é a única maneira de descobrir quão boa é a sua técnica de redução de ruído, para treinar o sistema de reconhecimento de fala nos dados denoised e analisar a precisão?

Segundo. Além disso, a redução de ruído baseada em recursos remove na verdade informações importantes do espectro, para que você não possa reparar a precisão do sistema limpo. Por esse motivo, a abordagem moderna é realizar treinamento de vários estilos em dados ruidosos, em vez de usar o algoritmo de redução de ruído de antemão. Termina em um reconhecimento mais preciso.

Nikolay Shmyrev
fonte

Obrigado por suas respostas. Acho que não estava procurando os papéis certos. Vou dar uma olhada nesse livro.

Marlonfl

Ok, se você deseja documentos, pode verificar os resultados do desafio CHIME-4, principalmente o estado da arte em ASR robusto.

Nikolay Shmyrev