O estado da arte atual na interpolação do sinal de áudio

11

Três perguntas:

  1. Quais são todas as métricas que podemos usar para medir objetivamente a qualidade da interpolação de áudio? (mas também em termos de psicoacústica, se possível)

  2. Por essas métricas, qual é o estado da arte atual na interpolação de áudio?

  3. Suponha que eu devesse renderizar dois arquivos a partir de uma sequência de notas de instrumentos virtuais em duas resoluções e comparar uma upsampling de um arquivo com a versão renderizada em alta frequência. Que software poderia ser usado para compará-los objetivamente? - idealmente, usando as métricas mencionadas anteriormente

Até agora, do que pude reunir, esses reamostradores oferecem algumas das melhores

  1. http://www.mega-nerd.com/SRC/
  2. http://sox.sourceforge.net/SoX/
  3. http://www.izotope.com/tech/src/

Um dos problemas que esses reamostradores parecem ter é antes e depois do toque.

Devo observar que o principal interesse é a reconstrução do sinal (na medida em que esse termo faz sentido), portanto, ampliamos a amostragem mais do que diminuímos a amostragem.

Edit: A eficiência do tempo de interpolação é irrelevante neste contexto.

Atenciosamente, O curioso :-)

Bent Rasmussen
fonte

Respostas:

5

Em relação ao "problema" que você observa nos reamostradores:

Muitos algoritmos de reamostragem usam um núcleo de interpolação polifásica de filtro passa-baixa de fase linear. Um núcleo de interpolação de filtro de fase mínima, em oposição ao núcleo de interpolação de fase linear (com a mesma resposta de freqüência), produziria menos pré-toque durante a reamostragem para uma taxa de amostragem mais alta, que pode medir objetivamente como menos preciso, mas possivelmente psicótico. acusticamente soa "melhor" para os seres humanos.

Aqui está uma observação sobre a criação de filtros de fase mínimos para filtragem com potencialmente menos pré-toque: http://www.music.columbia.edu/pipermail/music-dsp/2004-February/059372.html

Além disso, um filtro passa-baixo projetado por Remez (Parks-McClellan) pode ter uma ondulação periódica clara no domínio da frequência, o que também pode produzir um impulso anterior ao toque no domínio do tempo. Portanto, você pode tentar um Sinc com janela ou uma derivação de um filtro analógico clássico, para o design de filtro passa-baixo (o último geralmente resultando em algo mais próximo da fase mínima) para o kernel de interpolação de reamostragem.

hotpaw2
fonte
Em relação ao seu ponto de vista sobre os filtros de fase mínima: Não tenho certeza dos dois primeiros links, mas o SRC do iZotope permite a fase continuamente variável entre mínima e linear. Nos testes de audição, as pessoas tendem a gostar de algo entre a fase mínima e a fase linear.
schnarf 31/01
Um filtro sinc-windowed não seria necessariamente melhor do que um filtro de dois pontos (projetado via Remez exchange) com relação ao toque no domínio do tempo. O efeito de toque é chamado fenômeno de Gibbs e é observado quando você limita a banda de um sinal que contém descontinuidades (por exemplo, uma onda quadrada). Não é causado pela ondulação no domínio da frequência de um filtro de equirripple. O efeito é mais perceptível quando você usa filtros com um corte muito nítido; aumentar a largura da transição pode atenuá-lo um pouco.
Jason R
@ Jason R: sinusóide no domínio do tempo = impulso no domínio da frequência, posição dependendo da taxa de ondulação do sinusóide. Agora inverta os 2 domínios e coloque uma ondulação sinusoidal em uma resposta no domínio da frequência. O impulso entra no domínio do tempo, posição dependendo das características da ondulação.
hotpaw2
@ hotpaw2: vejo sua analogia. Entendi mal a intenção do seu termo "impulso anterior ao toque".
Jason R
Além disso, uma janela suave no domínio do tempo reproduz sua forma não descontínua em torno de descontinuidades no domínio da frequência por convolução, reduzindo assim o excesso de Gibbs.
hotpaw2
6

Existe uma comparação bastante completa dos algoritmos de reamostragem: http://src.infinitewave.ca/

Você pode ver os testes que eles usaram lá. O alias é grande e é fácil de visualizar com um espectrograma de uma varredura senoidal. Também há resposta de alta frequência - o SRC pode gerar altas frequências, além de permitir que causem aliases. Você pode visualizar a resposta da fase com o gráfico da resposta ao impulso ou com um gráfico da resposta da fase.

schnarf
fonte
Sim, conheço esse excelente recurso. Eu só queria conhecer todos os parâmetros que valem a pena medir ao medir o desempenho de reamostragem (em particular, amostragem ampliada).
Bent Rasmussen