Normalização da Média Cepstral

15

Alguém pode explicar sobre a Normalização Média Cepstral, como a propriedade de equivalência da convolução afeta isso? É necessário fazer o CMN no reconhecimento de alto-falante baseado em MFCC? Por que a propriedade da convolução é a necessidade fundamental do MFCC?

Eu sou muito novo neste processamento de sinal. Por favor ajude

mun
fonte
Pode, sem usar o banco de filtros, converter a frequência diretamente em escala de mel irá funcionar no processo MFCC?
purple

Respostas:

17

Apenas para esclarecer as coisas - essa propriedade não é fundamental, mas importante . É a diferença fundamental quando se trata de usar DCT em vez de DFT para o cálculo do espectro.

Por que fazemos a Normalização da Média Cepstral

No reconhecimento do alto-falante, queremos remover todos os efeitos do canal (resposta ao impulso do trato vocal, caminho do áudio, sala etc.). Desde que o sinal de entrada seja e a resposta ao impulso do canal seja dada por h [ n ] , o sinal gravado é uma convolução linear de ambos:x[n]h[n]

y[n]=x[n]h[n]

Ao fazer a transformada de Fourier, obtemos:

Y[f]=X[f]H[f]

devido à propriedade de equivalência de convolução-multiplicação do FT - é por isso que é uma propriedade tão importante do FFT nesta etapa .

O próximo passo no cálculo do cepstrum é tomar o logaritmo do espectro:

Y[q]=registroY[f]=registro(X[f]H[f])=X[q]+H[q]

porque: . Obviamente, q é a quefrency . Como se pode notar, tomando o cepstrum da convolução no domínio do tempo, terminamos com a adição no domínio cepstral (quefrency).registro(umab)=registrouma+registrobq

O que é a Normalização Média Cepstral?

Agora sabemos que no domínio cepstral qualquer distorção convolucional é representada por adição. Vamos supor que todos eles estejam estacionários (o que é uma forte suposição, pois o trato vocal e a resposta do canal não estão mudando) e a parte estacionária da fala é insignificante. Podemos observar que, para todo i-ésimo quadro, verdadeiro é:

YEu[q]=H[q]+XEu[q]

Ao calcular a média de todos os quadros, obtemos

1 1NEuYEu[q]=H[q]+1 1NEuXEu[q]

Definindo a diferença:

REu[q]=YEu[q]-1 1NjYj[q]=H[q]+XEu[q]-(H[q]+1 1NjXj[q])=XEu[q]-1 1NjXj[q]

Terminamos com nosso sinal com as distorções do canal removidas. Colocando todas as equações acima no inglês simples:

  • Calcular cepstrum
  • Subtraia a média de cada coeficiente
  • Opcionalmente, divida por variação para executar a Normalização Média Cepstral em oposição à Subtração.

A Normalização Média Cepstral é necessária?

Não é obrigatório, especialmente quando você está tentando reconhecer um alto-falante em um único ambiente. De fato, ele pode até deteriorar seus resultados, pois é propenso a erros devido ao ruído adicional:

y[n]=x[n]h[n]+W[n]

Y[f]=X[f]H[f]+W[f]

registroY[f]=registro[X[f](H[f]+W[f]X[f])]=registroX[f]+registro(H[f]+W[f]X[f])

Em condições ruins de SNR, o termo marcado pode ultrapassar a estimativa.

Embora quando o CMS é realizado, geralmente você pode ganhar alguns por cento extras. Se você aumentar esse ganho de desempenho com derivativos de coeficientes, obterá um aumento real de sua taxa de reconhecimento. A decisão final é com você, especialmente que existem muitos outros métodos usados ​​para melhorar os sistemas de reconhecimento de fala.

jojek
fonte
@ mun: Fico feliz que ajudou. Por que não marcar as respostas às suas perguntas como aceitas para que você possa remover as restrições de novos usuários?
jojek
@ Mun: Parabéns! Agora você publica mais links, vota em perguntas e respostas + sinaliza postagens.
jojek
Obrigado @jojek ..Eu sou muito novo para todos esses. Mas estou feliz que eu tenho meu problema resolvido.
mun
@ Mun: Então eu definitivamente sugiro que você faça um tour
jojek
Em última resposta, não consigo entender o que "acrescenta a esse ganho de desempenho derivado de coeficientes". Você pode dar uma explicação simples? Muito obrigado
Shuai Wang