Qual transformação imita mais de perto o sistema auditivo humano?

12

A transformada de Fourier é comumente usada para análise de frequência de sons. No entanto, tem algumas desvantagens quando se trata de analisar a percepção humana do som. Por exemplo, seus compartimentos de frequência são lineares, enquanto o ouvido humano responde à frequência logaritmicamente, não linearmente .

As transformadas Wavelet podem modificar a resolução para diferentes faixas de frequência , diferentemente da transformada de Fourier. As propriedades da transformada wavelet permitem grandes suportes temporais para frequências mais baixas, mantendo larguras temporais curtas para frequências mais altas.

A wavelet de Morlet está intimamente relacionada à percepção humana da audição. Ele pode ser aplicado à transcrição de música e produz resultados muito precisos que não são possíveis usando as técnicas de transformação de Fourier. É capaz de capturar pequenas explosões de notas musicais repetidas e alternadas com um horário de início e de término claro para cada nota.

A transformação constante-Q (intimamente relacionada à transformação wavelet de Morlet) também é adequada para dados musicais . Como a saída da transformação é efetivamente amplitude / fase em relação à frequência de log, são necessários menos compartimentos espectrais para cobrir efetivamente um determinado intervalo, e isso se mostra útil quando as frequências abrangem várias oitavas.

A transformação exibe uma redução na resolução de frequência com compartimentos de frequência mais alta, o que é desejável para aplicações auditivas. Ele reflete o sistema auditivo humano, pelo qual a resolução espectral em frequências mais baixas é melhor, enquanto a resolução temporal melhora em frequências mais altas.

Minha pergunta é a seguinte: existem outras transformações que imitam de perto o sistema auditivo humano? Alguém tentou projetar uma transformação que corresponda anatomicamente / neurologicamente ao sistema auditivo humano o mais próximo possível?

Por exemplo, sabe-se que os ouvidos humanos têm uma resposta logarítmica à intensidade do som . Sabe-se também que os contornos de igual volume variam não apenas com a intensidade, mas com o espaçamento na frequência dos componentes espectrais . Os sons que contêm componentes espectrais em muitas bandas críticas são percebidos como mais altos, mesmo que a pressão total do som permaneça constante.

Finalmente, o ouvido humano possui uma resolução temporal limitada dependente da frequência . Talvez isso possa ser levado em consideração também.

user76284
fonte
Você impõe restrições matemáticas à "transformação"?
Olli Niemitalo 30/03
2
Parabéns por todos os links!
Gilles
Nenhuma transformação única pode imitar adequadamente um sistema tão complexo quanto o sistema auditivo humano. Os modelos HAS existentes usam arquiteturas complicadas de processamento de sinal e múltiplas transformações cada modelagem, outro aspecto da audição. Pode ser que você queira considerar a modelagem peça por peça.
Fat32 30/03

Respostas:

9

Ao projetar essas transformações, deve-se levar em consideração interesses concorrentes:

  • fidelidade ao sistema auditivo humano (que varia de pessoa para pessoa), incluindo aspectos não lineares ou mesmo caóticos (zumbido)
  • facilidade da formulação matemática para a parte da análise
  • possibilidade de discretizá-lo ou permitir implementações rápidas
  • existência de um inverso estável adequado

Dois designs recentes me chamaram a atenção recentemente: transformação de wavelet Gammatone motivada por audição , Processamento de Sinais, 2014

A capacidade da transformada contínua de wavelets (CWT) para fornecer boa localização em tempo e frequência tornou-a uma ferramenta popular na análise de sinais de frequência-tempo. As wavelets exibem propriedade Q constante, que também é possuída pelos filtros de membrana basilar no sistema auditivo periférico. Os filtros de membrana basilar ou filtros auditivos são frequentemente modelados por uma função Gammatone, que fornece uma boa aproximação às respostas determinadas experimentalmente. O banco de filtros derivado desses filtros é referido como um banco de filtros Gammatone. Em geral, a análise de wavelets pode ser comparada a uma análise de banco de filtros e, portanto, o elo interessante entre a análise de wavelets padrão e o banco de filtros Gammatone. No entanto, a função Gammatone não se qualifica exatamente como uma wavelet porque sua média de tempo não é zero. Mostramos como wavelets de boa-fé podem ser construídas a partir de funções Gammatone. Analisamos propriedades como admissibilidade, produto com largura de banda no tempo, momentos de fuga, particularmente relevantes no contexto de wavelets. Também mostramos como as wavelets auditivas propostas são produzidas como a resposta ao impulso de um sistema linear, invariável por deslocamento, governado por uma equação diferencial linear com coeficientes constantes. Propomos implementações de circuitos analógicos do CWT proposto. Também mostramos como as wavelets derivadas de Gammatone podem ser usadas para detecção de singularidade e análise de tempo-frequência de sinais transitórios. Também mostramos como as wavelets auditivas propostas são produzidas como a resposta ao impulso de um sistema linear, invariável por deslocamento, governado por uma equação diferencial linear com coeficientes constantes. Propomos implementações de circuitos analógicos do CWT proposto. Também mostramos como as wavelets derivadas de Gammatone podem ser usadas para detecção de singularidade e análise de tempo-frequência de sinais transitórios. Também mostramos como as wavelets auditivas propostas são produzidas como a resposta ao impulso de um sistema linear, invariável por deslocamento, governado por uma equação diferencial linear com coeficientes constantes. Propomos implementações de circuitos analógicos do CWT proposto. Também mostramos como as wavelets derivadas de Gammatone podem ser usadas para detecção de singularidade e análise de tempo-frequência de sinais transitórios.

A transformação do ERBlet: uma representação de tempo-frequência baseada em auditivo com reconstrução perfeita , ICASSP 2013

Este artigo descreve um método para obter uma representação de frequência temporal perceptivamente motivada e perfeitamente invertível de um sinal sonoro. Com base na teoria de quadros e na recente transformação não estacionária de Gabor, uma representação linear com resolução evoluindo através da frequência é formulada e implementada como um banco de filtros não uniforme. Para corresponder à resolução auditiva-temporal humana, a transformação usa janelas Gaussianas equidistantemente espaçadas na escala de frequência psicoacústica "ERB". Além disso, a transformação apresenta resolução e redundância adaptáveis. As simulações mostraram que a reconstrução perfeita pode ser alcançada usando métodos iterativos rápidos e pré-condicionamento, mesmo usando um filtro por ERB e uma redundância muito baixa (1,08).

E mencionarei também:

Uma transformação auditiva para processamento de sinais de áudio , WASPAA 2009

Uma transformação auditiva é apresentada neste artigo. Por meio de um processo de análise, a transformação abrange sinais no domínio do tempo em um conjunto de saídas do banco de filtros. As respostas e distribuições de frequência do banco de filtros são semelhantes às da membrana basilar da cóclea. O processamento do sinal pode ser realizado no domínio do sinal decomposto. Através de um processo de síntese, os sinais decompostos podem ser sintetizados de volta ao sinal original através de um cálculo simples. Além disso, algoritmos rápidos para sinais de tempo discreto são apresentados para as transformações direta e inversa. A transformação foi aprovada em teoria e validada em experimentos. Um exemplo de aplicação de redução de ruído é apresentado. A transformação proposta é robusta ao ruído de fundo e computacional e está livre de harmônicos de afinação.

Laurent Duval
fonte
1
Era exatamente isso que eu estava procurando. Obrigado.
user76284