Roteiro de aprendizado para iniciantes no processamento de sinais de áudio

13

Gostaria de começar a aprender o processamento do sinal de áudio. Existem inúmeros livros online e artigos acadêmicos, os quais parecem ignorar os fundamentos do tópico.

Gostaria de conhecer um roteiro aproximado, por assim dizer, a seguir para aprender com êxito o processamento do sinal de áudio.

Eu li que o cálculo é o primeiro passo antes de iniciar a análise do sinal.

Parece-me que a análise do sinal de áudio é apenas uma parte do conhecimento geral necessário. Onde outros tópicos são teoria musical, engenharia de áudio e programação.

Se eu puder pedir às pessoas com conhecimento nesta área que sugiram possíveis etapas para entender como analisar e manipular / criar sinais de áudio.

jarryd
fonte
Concordo que um histórico em cálculo (no mínimo) será importante para que você tenha a chance de entender a matemática que pode encontrar em um texto ou curso de teoria de sinais e sistemas. Eu garantiria que você chegue lá primeiro.
Jason R
1
Esses slides podem ajudar. Eles obtêm algumas das noções não-matemáticas / de engenharia de processamento e programação de áudio. blog.bjornroche.com/2011/11/…
Bjorn Roche

Respostas:

9

Eu não acho que haja motivo para mergulhar na complexidade de DFT / FFT / IIR / FIR e wavelets sem primeiro entender o que é o áudio fundamentalmente e quais são as várias maneiras de representar o áudio digitalmente.

O que é o áudio em geral (no ar, não na água ou em outros materiais):

  • O áudio é composto de ondas de pressão sonora
  • Causam compressão e rarefação do ar
  • Essas ondas se propagam para fora do ponto de origem
  • As ondas podem interferir umas nas outras, causando picos e depressões
  • As ondas podem ser absorvidas e refletidas pelos materiais

Como o áudio é representado eletricamente:

  • Um microfone e um pré-amplificador convertem as ondas de pressão sonora em um sinal elétrico
  • Normalmente, este sinal tem uma tensão positiva e negativa (como tensões CA)
  • As fitas magnéticas armazenam essas diferenças à medida que aparecem, daí o termo analógico
  • A saturação ocorre quando a força do sinal de entrada é igual aos limites do sistema (mais aumentos de tensão não podem ser representados com precisão)
  • O recorte ocorre quando o sinal de entrada é mais alto do que o representado pelo sistema, de modo que o sinal fica cortado (ou limitado nas extremidades)

Como o áudio é representado digitalmente:

  • O áudio deve primeiro ser amostrado usando um ADC (conversor analógico para digital)
  • A amostragem consiste em medir eletricamente um sinal de áudio periodicamente
  • Esse período é chamado de taxa de amostragem e determina a frequência mais alta que pode ser representada (limite de nyquist)
  • O limite nyquist é a taxa de amostragem / 2 (quanto mais próximo do limite, mais mal representado o sinal fica)
  • O intervalo de bits determina o nível de ruído (-96dB para 16 bits vs -48dB para 8 bits)
  • Uma única amostra de áudio de 16 bits pode ser um valor (assinado) entre -32768 e 32767 (isso pode representar tanto o balanço negativo quanto o positivo do sinal analógico)
  • Há apenas 8 bits permitidos por byte (em termos de armazenamento do computador), portanto uma amostra de 16 bits deve ser representada por pelo menos 2 bytes
  • A ordem em que esses bytes são armazenados é chamada de tipo endian (grande ou pequeno)
  • Amostras estéreo requerem uma amostra separada para cada canal, uma para a esquerda e outra para a direita

Que maneiras diferentes são usadas para armazenar áudio digital:

  • PCM (código de pulso modulado) é a maneira mais comum e não compactada de armazenar áudio digitalmente
  • Existem muitas compactação para reduzir a quantidade de dados utilizados, algumas sem perdas, outras com perdas
  • Os arquivos WAV não são compactados e podem ser mono ou estéreo (amostras intercaladas)
  • Os arquivos MP3 são compactados, com perdas e empregam psicoacústica para obter taxas de compactação de dados muito altas
  • Até o menor intervalo de bits (1 bit) pode ser útil, dependendo do uso, geralmente cartões de presente que reproduzem áudio armazenado como 1 bit

Como se familiarizar com o áudio no mundo digital:

  • Faça e faça mais! Baixe um programa como o audacity e crie diferentes arquivos de áudio usando diferentes taxas de amostragem e intervalos de bits
  • Crie tons de seno / triangular / quadrado e dente de serra e ouça as diferenças
  • Aprenda a ouvir a diferença entre tipos, como um arquivo de 8 bits 10KHz e um arquivo de 16 bits 44.1KHz (qualidade do CD)
  • Experimente filtros passa-alto / passa-baixo / passa-banda e ouça as diferenças
  • Empurre sinais além do limite de saturação para entender como o recorte afeta o sinal de áudio
  • Aplique envelopes aos sinais se o seu software tiver esse recurso
  • Existe uma diferença entre distorção inarmônica e harmônica, experimento com ambos
  • Use um espectrograma (FFT) para ver esses e outros sinais para se familiarizar com eles
  • Use gráficos lineares e logarítmicos para ver as diferenças
  • Diminuir ou diminuir a amostragem de sinais e ouvir como isso afeta o áudio
  • Use métodos de pontilhamento diferentes (ao converter faixas de bits) e ouça as diferenças

Esperamos que isso lhe dê uma idéia do que é o áudio representado digitalmente e como são as diferenças antes de tentar qualquer DSP. É sempre mais fácil saber que algo está errado com sua análise FFT, se você pode reconhecer que inseriu um sinal de 8 bits versus um sinal de 16 bits, por exemplo, ou que a taxa de amostragem foi corrompida por um erro de cálculo incorreto em uma transformação.

ronnied
fonte
Obrigado pela resposta. Estou ciente dessas coisas e gostaria de entrar no lado da codificação dsp agora.
jarryd 31/07