A transformada de Fourier é comumente usada para análise de frequência de sons. No entanto, tem algumas desvantagens quando se trata de analisar a percepção humana do som. Por exemplo, seus compartimentos de frequência são lineares, enquanto o ouvido humano responde à frequência logaritmicamente, não linearmente .
As transformadas Wavelet podem modificar a resolução para diferentes faixas de frequência , diferentemente da transformada de Fourier. As propriedades da transformada wavelet permitem grandes suportes temporais para frequências mais baixas, mantendo larguras temporais curtas para frequências mais altas.
A wavelet de Morlet está intimamente relacionada à percepção humana da audição. Ele pode ser aplicado à transcrição de música e produz resultados muito precisos que não são possíveis usando as técnicas de transformação de Fourier. É capaz de capturar pequenas explosões de notas musicais repetidas e alternadas com um horário de início e de término claro para cada nota.
A transformação constante-Q (intimamente relacionada à transformação wavelet de Morlet) também é adequada para dados musicais . Como a saída da transformação é efetivamente amplitude / fase em relação à frequência de log, são necessários menos compartimentos espectrais para cobrir efetivamente um determinado intervalo, e isso se mostra útil quando as frequências abrangem várias oitavas.
A transformação exibe uma redução na resolução de frequência com compartimentos de frequência mais alta, o que é desejável para aplicações auditivas. Ele reflete o sistema auditivo humano, pelo qual a resolução espectral em frequências mais baixas é melhor, enquanto a resolução temporal melhora em frequências mais altas.
Minha pergunta é a seguinte: existem outras transformações que imitam de perto o sistema auditivo humano? Alguém tentou projetar uma transformação que corresponda anatomicamente / neurologicamente ao sistema auditivo humano o mais próximo possível?
Por exemplo, sabe-se que os ouvidos humanos têm uma resposta logarítmica à intensidade do som . Sabe-se também que os contornos de igual volume variam não apenas com a intensidade, mas com o espaçamento na frequência dos componentes espectrais . Os sons que contêm componentes espectrais em muitas bandas críticas são percebidos como mais altos, mesmo que a pressão total do som permaneça constante.
Finalmente, o ouvido humano possui uma resolução temporal limitada dependente da frequência . Talvez isso possa ser levado em consideração também.
Respostas:
Ao projetar essas transformações, deve-se levar em consideração interesses concorrentes:
Dois designs recentes me chamaram a atenção recentemente: transformação de wavelet Gammatone motivada por audição , Processamento de Sinais, 2014
A transformação do ERBlet: uma representação de tempo-frequência baseada em auditivo com reconstrução perfeita , ICASSP 2013
E mencionarei também:
Uma transformação auditiva para processamento de sinais de áudio , WASPAA 2009
fonte