Por que escolhemos 44,1 kHz como taxa de amostragem de gravação?

21

Os ouvidos das pessoas podem ouvir sons cujas frequências variam de 20 Hz a 20 kHz. Com base no teorema de Nyquist, a taxa de gravação deve ser de pelo menos 40 kHz. É o motivo da escolha de 44,1 kHz?

new_comer_forever
fonte
4
Foi escolhido para compatibilidade com taxas de quadros de vídeo. Veja en.wikipedia.org/wiki/44,100_Hz#Why_44.1_kHz.3F
endolith
As frequências acima de 12 a 15 mil agregam pouco ou nenhum valor. A maioria das pessoas com mais de 40 anos terá pouca utilidade. Audibilidade acima desse nível.
Chris Heath

Respostas:

32

É verdade que, como qualquer convenção, a escolha de 44,1 kHz é uma espécie de acidente histórico. Existem algumas outras razões históricas.

Obviamente, a taxa de amostragem deve exceder 40 kHz se você deseja áudio de alta qualidade com uma largura de banda de 20 kHz.

Houve uma discussão sobre a produção de 48,0 kHz (era bastante congruente com os filmes de 24 quadros / segundo e os ostensivos 30 quadros / segundo na TV norte-americana), mas, dado o tamanho físico de 120 mm, havia um limite para a quantidade de dados que o O CD pode conter e, considerando que era necessário um esquema de detecção e correção de erros e que requer alguma redundância nos dados, a quantidade de dados lógicos que o CD poderia armazenar (cerca de 700 MB) é cerca da metade da quantidade de dados físicos. Dado tudo isso, na taxa de 48 kHz, fomos informados de que ele não poderia conter todo o nono de Beethoven, mas que ele poderia conter o nono inteiro de um disco a uma taxa um pouco mais lenta. Então 48 kHz está fora.

Ainda assim, por que 44,1 e não 44,0 ou 45,0 kHz ou algum número redondo agradável?

Na época, existia um produto no final da década de 1970, chamado Sony F1, projetado para gravar áudio digital em fita de vídeo prontamente disponível (Betamax, não VHS). Isso estava em 44,1 kHz (ou mais precisamente 44,056 kHz). Portanto, isso facilitaria a transferência de gravações, sem reamostragem e interpolação, do F1 para o CD ou na outra direção.

Meu entendimento de como chega lá é que a taxa de varredura horizontal da TV NTSC era de 15.750 kHz e 44,1 kHz é exatamente 2,8 vezes isso. Não tenho muita certeza, mas acredito que o que isso significa é que você pode ter três pares de amostras estéreo por linha horizontal e, a cada 5 linhas, onde você normalmente teria 15 amostras, há 14 amostras mais uma amostra adicional para algumas linhas. verificação de paridade ou redundância no F1. 14 amostras para 5 linhas são iguais a 2,8 amostras por linha horizontal e 15.750 linhas por segundo, o que resulta em 44.100 amostras por segundo.

Agora, desde que a TV em cores foi introduzida, eles tiveram que diminuir levemente a taxa de linhas horizontais para 15734 linhas por segundo. Esse ajuste leva às 44.056 amostras por segundo na Sony F1.

Robert Bristow-Johnson
fonte
8

Veja http://www1.cs.columbia.edu/~hgs/audio/44.1.html, por exemplo. Você deve usar uma taxa de amostragem superior a 40 kHz por causa dos filtros anti-aliasing. Você deve ter alguma reserva em frequência para evitar distorção do sinal devido à inclinação da resposta do filtro. O valor real de 44,1 kHz foi sugerido pela Sony Corp quando o padrão de gravação de áudio estava em discussão em 1979. Eles usaram essa taxa amplamente naquele momento.

Portanto, é geralmente uma razão histórica.

Serj
fonte
6

Na transição para os formatos digitais, o áudio foi armazenado em uma forma de onda pseudo-vídeo que podia ser vista em preto ou branco (representando o formato binário).

A taxa e a estrutura de campo usadas pelo padrão de televisão são as seguintes para vídeos em 60 Hz: 245 linhas por campo (excluídas as primeiras 35 linhas em branco). Com três amostras por linha, produz 60 x 245 x 3 = 44100 = 44,1 KHz.

Essa convenção foi posteriormente usada para o formato CD, devido a preocupações de compatibilidade de equipamentos (o primeiro equipamento usado para produzir mestres de CD usados ​​para replicação de CD foi baseado em vídeo).

Fonte: A Arte da Reprodução Sonora, p. 228

mhbuur
fonte
se é isso que a F1 faz, devo dizer "permaneço corrigido". Eu assumi que o F1 estava usando as linhas em branco.
22815 Robert De Bristow-Johnson
oi, acabei de ler aqui que "a codificação em cores NTSC é usada com o sinal de televisão System M, que consiste em 30 / 1.001 (aproximadamente 29.97) quadros entrelaçados de vídeo por segundo. Cada quadro é composto por dois campos, cada um composto por 262,5 linhas de varredura, para um total de 525 linhas de varredura. 483 linhas de varredura compõem a varredura visível. O restante (o intervalo de apagamento vertical) permite a sincronização vertical e a retração. " portanto, até 490 linhas usam algumas das linhas em branco (NTSC original).
Robert Bristow-johnson
0

Parece que o limite de audição para humanos pode ser muito superior a 20kHz se analisado da perspectiva da resolução de tempo "dinâmica", em vez de ondas sinusoidais estáticas típicas. Comentários também interessantes sobre a margem entre 20kHz e 22 kHz para filtragem de reconstrução. Na verdade, houve um trabalho interessante e interessante de Peter Craven sobre a filtragem otimizada no domínio do tempo, que defende pelo menos 96kHz para reprodução de alta fidelidade.

Pawel

Pawel
fonte
bem, há uma maneira de descobrir. chama-se Blind AB Testing . não precisa ser duplo-cego (mas normalmente é). e o teste AB é melhor que o teste ABX na minha opinião.
Robert Bristow-johnson
0

https://en.wikipedia.org/wiki/44,100_Hz#Why_44.1_kHz.3F O teorema da amostragem de Nyquist-Shannon diz que a frequência de amostragem deve ser maior que o dobro da frequência máxima que se deseja reproduzir. Como o alcance da audição humana é de aproximadamente 20 Hz a 20.000 Hz, a taxa de amostragem deve ser superior a 40 kHz.

Além disso, os sinais devem ser filtrados em passa-baixa antes da amostragem para evitar aliases. Embora um filtro passa-baixas ideal passe perfeitamente as frequências abaixo de 20 kHz (sem atenuá-las) e corte perfeitamente as frequências acima de 20 kHz, esse filtro ideal é teoricamente impossível (não é causal); portanto, na prática, é necessária uma banda de transição, onde as frequências são parcialmente atenuadas. Quanto maior a faixa de transição, mais fácil e econômico é criar um filtro anti-aliasing. A frequência de amostragem de 44,1 kHz permite uma banda de transição de 2,05 kHz.

Além disso, 44.100 são o produto dos quadrados dos quatro primeiros números primos (2 ^ 2 * 3 ^ 2 * 5 ^ 2 * 7 ^ 2) e, portanto, possuem muitos fatores pequenos úteis.

Zhong
fonte
portanto, se mudarmos o tempo da nossa unidade do segundo para o "farg" , que é de 1,001 segundo, o que isso faz com o 44100 e seus muitos fatores úteis pequenos?
22417 Robert Bristow-Johnson
-2

Consulte [ http://batmobile.blogs.ilrt.org/audio-analysis-on-an-iphone para obter uma descrição. . Um teorema chamado teorema de amostragem de Nyquist afirma que, para amostrar um sinal de X Hz sem perda significativa de qualidade, é necessário amostrar em 2x a frequência. O limite da audição humana é de aproximadamente 20kHz, o que requer uma taxa de amostragem de aproximadamente 40Khz. É por isso que os CDs são amostrados em 44Khz. isto é, cada segundo de gravação em um CD contém 44.000 medições da maior frequência possível contida na gravação.

aash ma
fonte
Bem, não realmente por causa disso ...
jojek
É parcialmente por causa disso. é raro um ser humano ouvir acima de 20k; portanto, um alcance audiófilo está razoavelmente acima de 40kHz, ou seja, 42, 43, 44. se você detonar alguém com grandes ondas senoidais a 22k, apenas uma criança terá chance de ouvi-lo. os morcegos têm 115kHz e alguns golfinhos estão a 150kHz, exceto que estão na água, o que parece mais claro. Teste sua percepção de alta frequência on-line com gravações ... ou seja, aqui audiocheck.net/audiotests_frequencycheckhigh.php
com.prehensible