Que entrada usar para um modelo AR de um som de vogal?

8

Gravei uma pronúncia de 2 segundos de um som de vogal. Os primeiros 0,12 segundos do sinal são mostrados abaixo.

Agora, eu construí um modelo de 8ª ordem auto-regressivo (AR) para comprimir esse sinal. (Na verdade, estou apenas modelando 160 amostras ou 0,02 s por vez.) A arfunção na System Identification Toolbox da Matlab pode estimar os parâmetros para um ajuste "ideal" do espectro.

Meu problema é escolher a entrada estocástica para o filtro do modelo. Suponho que há algo melhor do que ruído branco. A periodicidade (14 períodos por 0,02 segundos) me leva a pensar que um trem de impulso com o mesmo período seria adequado.

Se sim, como escolheria a amplitude e como encontraria a periodicidade? As estimativas de ACF e PSD são bastante barulhentas. Estou no caminho certo?

insira a descrição da imagem aqui

digital-communications autoregressive-model speech Andreas
fonte

11

Para sua informação, acabei escalando o trem de impulso de modo que sua energia de sinal (medida no domínio do tempo) fosse a mesma que a do sinal gravado.

Andreas

5

Um estimador de afinação é comumente usado para encontrar a periodicidade vocal. Os estimadores de pitch comuns incluem análise cepstrum / cepstral, espectro harmônico de produtos e algoritmos compostos, como o YAAPT .

hotpaw2
fonte

Obrigado. Como devo escolher a amplitude do impulso?

Andreas

4

Acho que sua melhor aposta é o detector de pitch "YIN", descrito neste artigo: http://audition.ens.fr/adc/pdf/2002_JASA_YIN.pdf . É bastante simples e funciona muito bem. Eles o apresentam em etapas, ou melhorias em relação à idéia anterior, e até mesmo a implementação dos primeiros passos deve ser suficiente.

A maioria dos detectores de pitch atualmente em uso está relacionada à autocorrelação. O maior problema com a maioria dos algoritmos de detecção de afinação é o de erros de oitava - detectando uma afinação mais baixa ou mais alta. É interessante que você diga que sua função de autocorrelação é barulhenta. Você deve ver um monte de ruído, com picos em múltiplos inteiros e divisores da frequência fundamental. Esperamos que o atraso de afinação correspondente à frequência fundamental tenha o maior valor, mas geralmente ele estará em uma sub-oitava (porque os sinais não são perfeitamente periódicos) ou em uma oitava mais alta (por causa de um formante forte causando uma das mais altas harmônicos para ser realmente alto). Eu recomendaria um tamanho de janela que seja tão grande quanto dois dos seus períodos de pitch mais baixos possíveis.

Esse sinal também parece ter um componente de frequência muito baixa - a fala geralmente não sobe e desce dessa maneira. Eu recomendo processá-lo com, por exemplo, um filtro passa-alta de 24 dB / oct a cerca de 50 Hz.

schnarf
fonte

Graças a vocês dois, vou verificar esses detectores de pitch. Quando o período é estimado, como posso encontrar qual amplitude é apropriada para o trem de impulso?

Andreas

Que entrada usar para um modelo AR de um som de vogal?

Respostas: