Existem vantagens matemáticas para taxas de amostragem mais altas?

18

Como a maioria das pessoas não consegue ouvir tantas frequências acima de 20kHz, nunca entendi os argumentos exatos para usar taxas de amostragem acima de 48kHz. Em 48kHz, entendo que é mais fácil criar um filtro passa-baixo com um pouco de largura de banda maior para remover o alias, mas não entendo por que alguém iria querer gravar a 96kHz.

Para projetos estritamente digitais, ou seja, usando síntese digital pura e não gravando nenhum material que seria convertido de analógico -> digital, há alguma vantagem em usar taxas de amostragem acima de 44,1 kHz?

Para todo o resto, há algum benefício em usar 96kHz? É benéfico ao aplicar algum tipo específico de operação DSP posteriormente? Ou é puramente um efeito placebo para o ouvido?

Nota: Há outras perguntas aqui sobre quais taxas de amostragem usar para vários tipos de projetos de gravação, mas aqui estou solicitando fatos reais e concretos por quaisquer razões matemáticas ou relacionadas ao DSP que suportam o uso de taxas de amostragem mais altas.

Nik Reiman
fonte

Respostas:

19

Eu sempre uso taxas de amostragem duplas, se possível, por duas razões importantes.

Primeira razão: para se livrar das características do filtro anti-imagem ao trabalhar com fontes de som analógicas. O que é um filtro anti-imagem?

Digamos que estou gravando em 44100 Hz.
Se eu gravar uma onda senoidal menor que 10 KHz, você poderá ver claramente a onda senoidal ao plotar os valores da amostra em um gráfico.
Se eu amostrar uma onda senoidal de 0dB FS com uma frequência de 22,5KHz, as amostras serão lidas 1 e -1 alternadamente.

Agora, aqui está o problema. Se eu gravar uma onda senoidal de 0dB FS com uma frequência de 30 KHz e plotar as amostras, cada amostra está demorando mais de meio período senoidal e - se você reproduzir as amostras - retornará uma onda senoidal de 11KHz. (Se você não acredita em mim, basta fazer um desenho simples.) Esse comportamento é chamado de 'efeito de imagem'.

Isso significa que, antes da amostragem do sinal, devemos ter certeza de que NÃO há frequências presentes, o que é acima da chamada "frequência nyquist" (que é metade da taxa de amostragem). Ao usar fontes de som digital que fornecem seus sons já amostrados, isso não é realmente tão importante, pois às vezes eles podem ser programados para nunca gerar um sinal acima da metade da taxa de amostragem ou podem filtrar tudo usando uma fase linear filtro brickwall que não tem efeito sobre o resto.

Mas, se você estiver amostrando sinal de uma fonte analógica, essa filtragem será feita antes que o sinal seja amostrado. A única maneira de filtrar o som analógico é usando um circuito eletrônico. E como o filtro deve ter uma curva muito íngreme, ele afetará as frequências dentro da faixa audível , mesmo que o filtro não tenha sido projetado para ele. Agora, existem alguns filtros bons dentro dos conversores A / D, então o problema é mínimo, mas fica relativamente irritante ouvir quando você está trabalhando vários dias em áudio de 44,1 KHz, em comparação com o uso de 96KHz. O filtro que será aplicado quando você reduzir a amostra de 96 para 44.1 é, obviamente, um filtro digital e provavelmente tem uma qualidade muito melhor. E só é aplicado quando você terminar completamente todo o trabalho, para não incomodá-lo.

Segunda razão: livrar-se das características do sinal pontilhado.

Quando você estiver gravando em resolução de 24 bits e planeja ter seu mestre em 16 bits, precisará de um sinal de pontilhado para mascarar os erros de arredondamento. Agora, o ruído não é uma coisa bonita de se ter na sua gravação e, embora o ruído da banda larga seja melhor para mascarar erros de arredondamento, a configuração do ruído pode ser uma grande melhoria aplicada ao sinal de pontilhado para torná-lo menos perturbador. Agora, se a gravação foi feita usando 96KHz, você pode moldar o ruído na maioria dos sinais de pontilhado para frequências maiores que 24KHz, para que ninguém os ouça. O ruído do pontilhamento é finalmente filtrado, no momento em que você reduz o tamanho do projeto para 44,1 KHz.

Então, em resumo: é útil ao gravar coisas analógicas:

  • Sim definitivamente. Você tem menos distúrbios no filtro anti-imagem e menos distúrbios no sinal de pontilhado quando usado com a modelagem de ruído adequada.

É útil ao trabalhar com material digital que veio direto do meu softsynth?

  • Sim, ainda é útil se você planeja trabalhar com 24 bits e dominar até 16 bits. Você pode ganhar muito com o ruído que molda o sinal de pontilhado.
The Pellmeister
fonte
"já que às vezes eles podem ser programados para nunca gerar um sinal acima da metade da taxa de amostragem" Definitivamente verdade, no entanto: "ou podem filtrar tudo usando um filtro de parede linear de fase linear que não afeta o resto" Eu não sou com certeza isso é possível. Para filtrar o ultrassom de uma onda gerada digitalmente, você precisaria gerá-lo com uma frequência de amostragem mais alta em primeiro lugar (o que ainda seria um pseudônimo, mas não tanto na banda sonora). Você não pode filtrar frequências que já estão com alias.
endolith 15/09/13
3
"Agora, se a gravação foi feita usando 96KHz, você pode moldar o ruído na maioria dos sinais de pontilhamento para frequências superiores a 24KHz, para que ninguém os ouça. O ruído de pontilhamento é no final da gravação finalmente filtrado, no momento em que você reduz a amostra seu projeto de volta a 44,1 KHz. " Também não acho isso certo. Se você filtrar todo o pontilhamento, sua saída não terá mais pontilhamento? Vai voltar a ter distorção de quantização?
endolith 15/09/13
Re primeiro comentário: Você está absolutamente certo. Eu acho que o que eu quis dizer é que, quando você está usando um efeito digital, pode esperar que a faixa de frequência de sua saída seja atendida. Coloque dessa maneira, se a saída sair com um alias, em primeiro lugar, aumentar sua própria frequência de amostra não vai mudar isso. Quanto ao seu segundo comentário: interessante; depende totalmente dos filtros usados ​​na pré-redução da amostra. Se o ruído fosse visualizado de volta, obviamente ocultaria o ruído da quantização, mas não soaria exatamente o mesmo. Eu acho que moldaria meu barulho em torno do freq nyquist final.
The Pellmeister
1
Certos tipos de operações podem transformar componentes de frequência acima de 24KHz em componentes de frequência abaixo de 20KHz e vice-versa. Se o áudio não for mantido em uma taxa de amostragem mais alta entre a primeira e a última operação, a perda de informações nos estágios intermediários pode ter um efeito audível na saída final.
Supercat
12

Para projetos estritamente digitais, ou seja, usando síntese digital pura e não gravando nenhum material que seria convertido de analógico -> digital, há alguma vantagem em usar taxas de amostragem acima de 44,1 kHz?

Sim. Alguns exemplos:

Criação de frequências que você não deseja

Alias ​​da síntese digital

Muitos geradores de onda quadrada / dente de serra / triângulo são escritos ingenuamente, na medida em que produzem um número infinito de harmônicas, que são alias e soam claramente ruins . ( não..., +1, +1, +1, +1, −1, −1, −1, −1, ... é uma onda quadrada correta e os harmônicos alternados produzirão sons de sintonia de rádio em segundo plano durante o portamento.)

Se a frequência de amostragem for maior, esse efeito será reduzido, porque a frequência de aliasing está mais distante da banda de áudio.

É claro que seria melhor se o gerador fosse escrito de uma maneira que eliminasse completamente o alias , mas nem sempre você pode controlar isso como usuário. Mesmo os bem escritos geralmente são comprometidos, com alias "reduzido" , não totalmente ilimitado por banda, então uma taxa de amostragem mais alta ainda ajuda.

Alias ​​da distorção digital

Da mesma forma, quando você usa qualquer tipo de distorção não linear digital, ela produz um número infinito de produtos harmônicos ou de intermodulação . Os que seriam produzidos acima da frequência de Nyquist são, na verdade, alternativos para a faixa audível.

Embora seja teoricamente possível distorcer de forma ilimitada por banda , não é comum que os codificadores de plug-ins realmente façam isso. Todo plug-in de distorção de guitarra que eu testei tem um alias, mesmo processando a 96 kHz.

Não tenho certeza de quanto de um problema isso é praticamente. Muitas coisas causam pequenas quantidades de distorção, como um compressor ou desbotamento do volume, mas a quantidade já é insignificante, portanto a quantidade alias é ainda mais insignificante. Para distorção pesada, as frequências com alias também podem não ser percebidas porque estão enterradas no barulho. Independentemente, uma taxa de amostragem mais alta ajudará a minimizar quaisquer efeitos prejudiciais.

Falta de freqüências que você faz falta

Outra possível preocupação é que as frequências ultrassônicas sintetizadas possam se tornar úteis posteriormente no processamento, mesmo que você não possa ouvi-las diretamente na gravação:

Mudança de frequência das mudanças de tempo

Se você redimensionar uma onda para desacelerá-la, como em um reprodutor de som, essas frequências ultrassônicas se tornarão audíveis. Se você os tivesse filtrado para evitar aliases na taxa de amostragem mais baixa, o som mais lento estaria faltando na extremidade alta.

Distorção / Modulação

Como dito anteriormente, a distorção criará novas frequências de intermodulação nos locais de soma e diferença das frequências na gravação original. Desta vez, estamos preocupados com as freqüências audíveis desejáveis ​​produzidas pela distorção / modulação das frequências ultrassônicas (não relacionadas ao aliasing). Se essas frequências ultrassônicas não estiverem na gravação antes da distorção, a saída estará faltando nas frequências audíveis que produzem e não emulará exatamente um efeito analógico equivalente.

Novamente, não tenho certeza se isso é praticamente um problema, mas é pelo menos plausível, e taxas de amostragem mais altas que incluem ultrassom o melhoram.

Em geral, trabalhar com taxas de amostragem mais altas fornece "margem de manobra" para evitar problemas com efeitos e outras coisas que podem não ser implementadas corretamente. Como fotocopiar uma fotocópia, melhor a qualidade de cada cópia, menor degradação haverá no produto final.

Inútil para reprodução

Isso não quer dizer que taxas de amostragem mais altas sejam uma boa idéia para a reprodução do mix finalizado. Eles não são. Como descrito acima, a distorção do ultrassom pode produzir som audível, e os alto-falantes são a coisa menos linear na cadeia de áudio. Portanto, você deseja eliminar qualquer ultrassom do mix final para evitar que seja distorcido pelo alto-falante.

Não há benefício para taxas de amostragem mais altas para reprodução de música; eles devem ser usados ​​apenas nas etapas de gravação e processamento. Veja downloads de música 24/192 ... e por que eles não fazem sentido .

endólito
fonte
1
+1 por mencionar geradores de onda quadrada incorretos. Além disso, o mesmo pode ser dito para as ondas dente de serra e triângulo ...
Sarge Borsch
O upsampling digital para uma taxa de 96KHz ou superior geralmente é útil para reprodução, porque a saída de áudio pode ser facilmente mantida livre de qualquer conteúdo indesejado na faixa de 22Khz a 48KHz. Construir um filtro analógico para matar qualquer coisa em 48Khz sem ferir nada abaixo de 22Khz é muito mais fácil do que construir um para matar tudo acima de 26Khz sem ferir nada abaixo de 22Khz. Se o áudio for convertido para 96Khz para reprodução, e um estiver em 96Khz, é possível mantê-lo em 96Khz, em vez de convertê-lo para baixo ou para baixo.
Supercat
@supercat Isso é para gravação, não para reprodução. É fácil criar um filtro digital super íngreme para remover tudo acima de 20 kHz antes da reprodução. Fazer um filtro analógico para remover o ultrassom antes da amostragem é difícil / caro, e é por isso que os ADCs usam a superamostragem a taxas muito mais altas (MHz) e, em seguida, usam filtros digitais para remover o ultrassom e voltar a uma taxa normal como 96 kHz.
endolith
5

Ter espaço para efeitos é uma razão teoricamente (e praticamente) válida para ter uma taxa de amostragem mais alta que o dobro do limite da audição humana.

A razão para isso é facilmente visualizada comparando-se com a edição de imagens - se você disser apenas uma imagem de 800 x 600 px com uma foto geral de uma parede de tijolos de alto contraste, rede de pesca, tecidos listrados ou outra textura de alto contraste espaçada, você poderá girar apenas 45 ° multiplica sem causar efeito moiré e desfocar os detalhes. Com o áudio, as distorções que ocorrem com a edição têm termos diferentes, mas os mesmos princípios do teorema de Nyquist-Shannon se aplicam. Alias é um termo mais comumente usado que "efeito de imagem", para o evento em que o som amostrado possui um conteúdo de frequência acima da metade da taxa de amostragem (chamada frequência de Nyquist).

Na prática, como Pelle ten Cate já explicou, um filtro passa-baixo na parede de tijolos não é possível, mas sempre há algum gradiente (inclinação) no corte.

Outro bom motivo para gravar com taxas de amostragem mais altas é obter uma imagem estéreo mais precisa, pois a audição humana depende, em grande parte, de pequenas diferenças de tempo (cerca de 5-20 ms, e fisicamente são diferenças de fase) entre os ouvidos para localizar fontes de som. As cabeças "sombra" e outros aspectos também desempenham um papel.

Com a taxa de amostragem de CD de áudio de 44100 Hz, cada amostra representa 22,6 microssegundos e, por exemplo, um período de uma frequência de 882 Hz possui 50 amostras. Além disso, um atraso bastante longo de 20 ms demora 50 amostras. Portanto, apenas 25 amostras nessa frequência média significam um cancelamento de fase de 180 °.

Portanto, a taxa de amostragem de 44,1 KHz é boa o suficiente, mas realmente não tem muito espaço para edição.

Outra coisa que deve ser lembrada é usar o pontilhamento (como na edição de imagens) para evitar ruídos de quantização. E a seguir você perguntará, devo usar a quantização de 24 bits em vez de 16 bits ...?

peterhil
fonte
Foi demonstrado que o ultrassom ainda afeta a nossa percepção estéreo, mesmo que não possamos ouvi-lo conscientemente?
endolith 15/09/13
1
Não, o efeito das diferenças de tempo interaurais na imagem estéreo tem mais efeito nas frequências baixas (abaixo de 1500 Hz), onde a distância das orelhas é menor que o comprimento de onda, portanto há uma diferença de fase. Em frequências mais altas, a diferença no nível do som tem mais efeito na localização do som. Veja: en.wikipedia.org/wiki/Interaural_time_difference#Duplex_theory
peterhil 15/09/13
4

Outro bom motivo para usar uma taxa de amostragem mais alta é solucionar as deficiências das implementações de plug-ins. Muitos gravadores de plug-ins não levam em consideração os efeitos de expansão da largura de banda das operações de sinal não linear e, como resultado, você pode obter efeitos de alias antes de sair da caixa.

Por exemplo, um compressor é basicamente um amplificador controlado por tensão ... multiplica um sinal (o sinal de áudio) por outro sinal (o ganho). A multiplicação de 2 sinais também é conhecida como modulação em anel ou heterodinâmica; tem o efeito de produzir sinais de soma e diferença das 2 entradas. Se você multiplicar um seno de 15 kHz por um seno de 10 kHz, você obtém um sinal de saída que possui um componente de 5 kHz e 25 kHz. Se o ganho do seu compressor tiver um ataque muito rápido e o sinal de entrada tiver uma largura de banda ampla, o sinal do componente "soma" poderá ultrapassar facilmente o limite de Fs / 2 em uma base transitória, resultando em lixo de baixa frequência aliado espúrio na sua saída sinal.

A correção real para isso é que o plug-in seja implementado usando superamostragem internamente, mas se você não conseguir isso, a próxima melhor coisa é executar o sistema com um Fs o mais alto possível. Você não terá nenhum conteúdo de áudio real na estratosfera, mas está protegido contra algum plug-in que ultrapassa os limites.

Bill Gribble
fonte
2

Pelo que vale a pena, a lógica matemática, pelo menos para as necessidades do mundo do áudio, é geralmente descrita pelo teorema da amostragem de Nyquist-Shannon , às vezes chamado de teorema de Nyquist, que na linguagem básica apenas afirma que reproduzir completamente um forma de onda com uma frequência máxima n Hz, você precisa de 2n amostras por segundo.

Marc Bollinger
fonte
1
Sim, mas Nyquist-Shannon usa filtros brickwall, que são fisicamente impossíveis.
endolith 15/09/13
1

Ao gravar com várias faixas, acredito que a profundidade de bits é mais importante que a taxa de amostragem.

Por exemplo, 24 bits seria melhor que 16 bits. Isso tem a ver com a maneira como suas faixas são misturadas e algo chamado "erros de arredondamento" quando não há bits suficientes.

A maioria dos hardwares e softwares agora pode suportar facilmente 96k e 24 bits, portanto, não há uma necessidade real de se contentar com menos.

Dito isto, você pode obviamente fazer uma gravação de alta qualidade usando equipamentos 16 / 44.1 mais antigos.

É mais sobre o talento do que sobre o equipamento.

Corey
fonte
2
Embora isso não seja "falso", trabalhar com 24 bits apresenta a desvantagem de que você precisa usar o pontilhamento para voltar aos 16 bits. O ruído de pontilhamento pode ser reduzido enormemente se aplicado a um sinal de 96 KHz ao usar a modelagem de ruído. (veja outra resposta para obter detalhes)
The Pellmeister
1
Todo software de áudio profissional trabalha internamente com ponto flutuante de 32 ou 64 bits durante a mixagem, independentemente da profundidade de bits usada durante a gravação.
leftaroundabout
3
@PelletenCate, se você trabalha com 16 bits, já está ferrado, porque adiciona ruído de quantização em cada etapa de edição não trivial. Isso é muito errado ao sugerir que trabalhar com 24 bits ou mais apresenta essa desvantagem.
Sarge Borsch
Marquei isso com +1. Eu não deveria estar descrevendo isso como uma desvantagem, porque não é. No entanto, devo dizer que tanto o ruído de quantização quanto o ruído de formação de forma são audíveis em uma mistura 44/16. O que quero dizer é que, ao mudar para 24 bits, você tem a oportunidade de alterar um problema (ruído de quantização) por outro (ruído de pontilhado) que pode ser efetivamente diminuído gravando em uma taxa de amostragem mais alta.
The Pellmeister
0

"... fatos reais e concretos por quaisquer razões matemáticas ou relacionadas ao DSP que suportam o uso de taxas de amostragem mais altas."

Os chamados fatos reais vêm de engenheiros de áudio reais, existe a possibilidade de encontrar vários aqui, mas provavelmente é mais rápido pesquisar na Internet artigos escritos por engenheiros reais. Pedir aqui significa que você se conforma conosco, eu não sou um engenheiro de áudio, mas posso usar as Ferramentas de pesquisa.

Algo a considerar é o seu nível de ruído. Outras respostas mencionam como você pode adicionar ruído e mencionar erros de pontilhamento e quantização, mas a resposta mais próxima de mencionar o piso foi esse boato: "... as frequências com alias também podem não ser visíveis porque estão enterradas no ruído. "

Se você estiver gravando em um canteiro de obras, estação de trem ou estaleiro, poderá economizar menos e gravar em 44,1.1 se não estiver buscando a perfeição - caso contrário, assim como o vídeo é 4: 2: 2 e não 4: 2: 0, é Áudio com mais bits, mas não mais que 32 (para VOCÊ, internamente no software mais que 32) e taxa de amostragem mais alta, mas não mais que 96kHz (novamente, para você, use internamente software e hardware que opera com uma taxa de amostragem mais alta).

Experimente estes artigos para começar a pesquisar os conselhos dos engenheiros - você não visitaria os conselhos legais. stackexchange por informações críticas, então aprenda a aprender; em última análise, é o quanto você se importa, o quanto seu público se importa, seu nível de habilidade e o que você pode pagar.

Por que 88.2 - http://www.soundonsound.com/sound-advice/q-why-882khz-best-sample-rate-recording

Por que 24/96? - http://www.premiersoundfactory.com/modules/pico/content0035.html

Muitos lugares na Internet, incluindo cursos online gratuitos.

A versão curta é sim, existe uma razão e isso é um fato difícil - não cometa erros no início e espere resolvê-los mais tarde, você não gostaria que alguém falasse enquanto tentava gravar ou estranhos correndo pela cena - ainda existem vídeos com esse e muitos polegares para cima.

O truque para lembrar é gravar alto sem recortar nas taxas mais altas que você pode pagar (tempo, espaço de armazenamento, habilidade, dinheiro e tipo de entrada (IE: Local de Construção), público) e cortar as nuances mais silenciosas com a Remoção de Ruído para livrar o usuário. quantização péssima e ruído pontilhado (que você talvez nunca tenha percebido até mencioná-lo).

[Escrito com a intenção de ser uma resposta simples, sem erros factuais e não destinado a ofender os aficionados por áudio ou engenheiros de áudio profissionais]

Roubar
fonte