Essa é uma pergunta que me interessa há algum tempo, principalmente porque estou trabalhando na redução de ruído para um sistema de reconhecimento de fala existente.
A maioria dos trabalhos sobre técnicas de redução de ruído parece focar em como tornar a fala mais inteligível para os seres humanos ou em como melhorar termos vagos, como "qualidade da fala".
Tenho certeza de que, usando critérios como esses, você pode identificar filtros que tornam os sinais de fala ruidosos mais fáceis de ouvir para os seres humanos. No entanto, não tenho certeza de que esses critérios possam ser simplesmente adaptados ao tentar avaliar sinais de fala que foram eliminados para melhorar a precisão do sistema de reconhecimento de fala.
Realmente não encontro trabalhos que discutam essa diferença. A inteligibilidade e a qualidade da fala se correlacionam com a precisão dos sistemas de reconhecimento de fala? Existem medidas objetivas que podem avaliar quão "bom" será um sinal de fala denoised para um sistema de reconhecimento de voz, por exemplo, se também for dada a fala limpa original? Ou é a única maneira de descobrir quão boa é a sua técnica de redução de ruído, para treinar o sistema de reconhecimento de fala nos dados denoised e analisar a precisão?
Ficaria feliz se alguém pudesse me indicar a direção certa, ou talvez desse alguns papéis que discutissem isso. Desde já, obrigado!