Eu tenho um sinal de fala de trinta segundos que foi amostrado em 44,1 kHz. Agora, eu gostaria de mostrar quais frequências o discurso tem. No entanto, não tenho certeza de qual seria a melhor maneira de fazer isso. Parece que às vezes se calcula o valor absoluto de uma transformada de Fourier e, às vezes, densidade de potência espectral. Se eu entendi direito, o último funciona para que eu divida meu sinal em partes, faça FFT parte por parte e, de alguma forma, some-as. As funções da janela estão de alguma forma envolvidas. Você pode esclarecer um pouco isso para mim? Eu sou novo no DSP.
12
Respostas:
Se você deseja anexar significado físico à sua análise, vá com a densidade espectral de potência (PSD). Isso ocorre porque isso simplesmente lhe dará a potência do seu sinal, em cada faixa de frequência. Por outro lado, se você não quer / se importa com um significado físico, mas quer saber como as amplitudes de quatro bandas de cada banda variam em relação uma à outra, você pode manter a magnitude absoluta.
Não, isto não é verdade. O que você está falando aqui refere-se à Transformada de Fourier de Tempo Curto (STFT). Isso é simplesmente cortar o sinal do domínio do tempo, enviá-lo e enviá-lo ao modelo de Fourier. No final do dia, você ainda terá uma matriz complexa. Se você optar por tomar sua magnitude absoluta, terá uma matriz de transformada de Fourier de magnitude absoluta. Se você tomar sua magnitude absoluta ao quadrado, terá uma matriz de densidade espectral de potência.
fonte
O importante a entender sobre algo como um sinal de fala é que seus componentes de frequência variam no tempo . Para representar a fala no domínio da frequência, geralmente usamos uma janela suficientemente curta do sinal, dentro da qual podemos assumir que o espectro da fala não varia significativamente (normalmente 10 ms). Portanto, calculamos o espectro de potência para cada janela sucessiva de 10 ms usando o STFT (geralmente com alguma sobreposição entre janelas) e tratamos cada espectro sucessivo como um "instantâneo" dos componentes de frequência da fala naquele momento específico. Frequentemente, os espectros sucessivos são plotados em um gráfico 3D, como um espectrograma, com o tempo no eixo X, a frequência no eixo Y e a magnitude plotada como uma cor falsa ou intensidade da escala de cinza em cada local X, Y.
fonte