Quando você coloca algo no ouvido reproduzindo gravações estéreo padrão, não deseja uma resposta de frequência plana, porque a função de transferência relacionada à cabeça que normalmente entra em jogo para uma fonte de som muito mais distante parece muito diferente quando a fonte está contra o ouvido .
Deixe-me citar alguns parágrafos de um livro :
De todos os componentes da cadeia de transmissão eletroacústica, os fones de ouvido são os mais controversos. A alta fidelidade em seu verdadeiro sentido, envolvendo não apenas timbre, mas também localização espacial, está mais associada à estereofonia dos alto-falantes devido à bem conhecida localização na cabeça dos fones de ouvido. No entanto, gravações binaurais com uma cabeça falsa, que são as mais promissoras para a alta fidelidade real, são destinadas à reprodução de fones de ouvido. Mesmo no auge, não encontravam lugar nas rotinas e transmissões de rotina. Naquela época, as causas eram localização frontal não confiável, incompatibilidade com a reprodução dos alto-falantes e tendência a serem não estéticas. Como o processamento de sinal digital (DSP) pode filtrar rotineiramente usando funções de transferência relacionadas à cabeça binaural, HRTF, cabeças falsas não são mais necessárias.
Ainda a aplicação mais comum dos fones de ouvido é alimentá-los com sinais estéreo originalmente destinados a alto-falantes. Isso levanta a questão da resposta de frequência ideal. Para outros dispositivos na cadeia de transmissão (Fig. 14.1), como microfones, amplificadores e alto-falantes, uma resposta simples é geralmente o objetivo do projeto, com saídas facilmente definíveis dessa resposta em casos especiais. É necessário um alto-falante para produzir uma resposta SPL plana a uma distância de tipicamente 1 m. O SPL de campo livre nesse momento reproduz o SPL no local do microfone no campo sonoro de, digamos, um concerto sendo gravado. Ouvindo a gravação na frente de um LS, a cabeça do ouvinte distorce o SPL linearmente por difração. Os sinais do ouvido não mostram mais uma resposta plana. Contudo, isso não preocupa o fabricante do alto-falante, pois isso também teria acontecido se o ouvinte estivesse presente na apresentação ao vivo. Por outro lado, o fabricante do fone de ouvido está diretamente preocupado em produzir esses sinais de ouvido. Os requisitos estabelecidos nas normas levaram ao fone de ouvido calibrado em campo livre, cuja resposta de frequência replica os sinais de ouvido de um alto-falante na frente, bem como a calibração de campo difusa, na qual o objetivo é replicar o SPL no ouvido de um ouvinte para ouvir o som de todas as direções. Supõe-se que muitos alto-falantes tenham fontes incoerentes, cada uma com uma resposta de tensão plana. o fabricante do fone de ouvido está diretamente preocupado em produzir esses sinais de ouvido. Os requisitos estabelecidos nas normas levaram ao fone de ouvido calibrado em campo livre, cuja resposta de frequência replica os sinais de ouvido de um alto-falante na frente, bem como a calibração de campo difusa, na qual o objetivo é replicar o SPL no ouvido de um ouvinte para ouvir o som de todas as direções. Supõe-se que muitos alto-falantes tenham fontes incoerentes, cada uma com uma resposta de tensão plana. o fabricante do fone de ouvido está diretamente preocupado em produzir esses sinais de ouvido. Os requisitos estabelecidos nas normas levaram ao fone de ouvido calibrado em campo livre, cuja resposta de frequência replica os sinais de ouvido de um alto-falante na frente, bem como a calibração de campo difusa, na qual o objetivo é replicar o SPL no ouvido de um ouvinte para ouvir o som de todas as direções. Supõe-se que muitos alto-falantes tenham fontes incoerentes, cada uma com uma resposta de tensão plana. em que o objetivo é replicar o SPL no ouvido de um ouvinte para que o som caia de todas as direções. Supõe-se que muitos alto-falantes tenham fontes incoerentes, cada uma com uma resposta de tensão plana. em que o objetivo é replicar o SPL no ouvido de um ouvinte para que o som caia de todas as direções. Supõe-se que muitos alto-falantes tenham fontes incoerentes, cada uma com uma resposta de tensão plana.
(a) Resposta em campo livre: Para uma referência melhor, os vários padrões internacionais e outros estabeleceram o seguinte requisito para fones de ouvido de alta fidelidade: a resposta em frequência e o volume percebido para uma entrada de sinal mono de tensão constante devem aproximar-se de um alto-falante de resposta plana na frente do ouvinte em condições anecóicas. A função de transferência de campo livre (FF) de um fone de ouvido em uma determinada frequência (1000 Hz, escolhida como referência de 0 dB) é igual à quantidade em dB pela qual o sinal do fone de ouvido deve ser amplificado para fornecer volume igual. É necessária uma média de um número mínimo de assuntos (normalmente oito). [...] A Figura 14.76 mostra um campo de tolerância típico.
(b) Resposta ao campo difuso: Durante os anos 80, iniciou-se um movimento para substituir os requisitos padrão do campo livre por outro, onde o campo difuso (DF) é a referência. Como se viu, ele chegou aos padrões, mas sem substituir o antigo. Os dois agora estão lado a lado. A insatisfação com a referência de FL surgiu principalmente da magnitude do pico de 2 kHz. Foi responsável pela coloração da imagem, pois a localização frontal não é alcançada nem mesmo por um sinal mono. A maneira pela qual o mecanismo auditivo percebe a coloração é descrita pelo modelo de associação de Theile (Fig. 14.62). Uma comparação das respostas de orelha para campo difuso e campo livre é mostrada na Fig. 14.77. [...] Como o teste de escuta subjetiva é o que conta, Até agora, os fones de ouvido FF foram mais uma exceção do que uma regra. Um palato de diferentes respostas de frequência está disponível para atender às preferências individuais, e cada fabricante tem sua própria filosofia de fone de ouvido com respostas de frequência que variam de campo plano a campo livre e além.
Esse problema de diferença da HRTF também é o motivo pelo qual os drivers angulares (em fones de ouvido) soam melhor para pessoas suficientes que empresas como a Sennheiser os vendem. Os drivers angulares não fazem com que os fones de ouvido soem como alto-falantes.
Na fábrica ou em um laboratório, um ouvido artificial é usado ao medir a resposta em frequência. O abaixo é do nível de laboratório; os de nível de fábrica são um pouco mais simples.
Eu também encontrei a metodologia usada pelo site HeadRoom :
Como testamos a resposta em frequência: Para realizar este teste, dirigimos os fones de ouvido com uma série de 200 tons na mesma voltagem e com frequência cada vez maior. Em seguida, medimos a saída em cada frequência através dos ouvidos do microfone Head Acoustics altamente especializado (e caro!). Depois disso, aplicamos uma curva de correção de áudio que remove a função de transferência relacionada à cabeça e produz com precisão os dados para exibição.
O microfone usado é provavelmente este . Parece que eles invertem a função de transferência da cabeça / orelhas fictícias via software, porque dizem logo antes que "Teoricamente, este gráfico deve ser uma linha plana em 0dB" ... mas não tenho muita certeza do que eles fazem ... porque depois disso eles dizem "Um fone de ouvido com" som natural "deve ser um pouco mais alto nos graves (cerca de 3 ou 4 dB) entre 40Hz e 500Hz". e "Os fones de ouvido também precisam ser removidos nas alturas para compensar que os drivers estejam tão perto do ouvido; uma linha plana levemente inclinada de 1kHz a cerca de 8-10dB a 20kHz é quase certa". O que não me compila em relação à declaração anterior sobre a inversão / remoção do HRTF.
Observando alguns certificados que as pessoas obtiveram do fabricante (Sennheiser) para o modelo de fone de ouvido (HD800) usado no exemplo do HeadRoom, parece que o HeadRoom exibe os dados sem nenhum modelo de correção assumido para o próprio fone de ouvido (o que explicaria por que sugestões de interpretação posteriores, de modo que a sugestão "plana" inicial é enganosa), enquanto Sennheiser usa a correção DF (campo difuso) para que seus gráficos pareçam quase planos.
Isso é apenas um palpite, porém, as diferenças nos equipamentos de medição (e / ou entre amostras de fones de ouvido) podem explicar essas diferenças, pois não são tão grandes.
De qualquer forma, esta é uma área de pesquisa ativa e em andamento (como você provavelmente adivinhou nas últimas frases citadas acima sobre o DF). Muito disso foi feito por alguns pesquisadores da HK; Não tenho acesso (gratuito) aos documentos da AES, mas alguns resumos bastante extensos podem ser lidos no blog InnerFidelity 2013 , 2014 , bem como nos links do blog do autor principal da HK, Sean Olive ; como atalho, aqui estão alguns slides gratuitos da apresentação mais recente (novembro de 2015) encontrada lá. Isso é um pouco de material ... Eu só olho brevemente, mas o tema parece ser que o DF não é bom o suficiente.
Aqui estão alguns slides interessantes de uma de suas apresentações anteriores . Primeiro, a resposta de frequência completa (não truncada para 12KHz) do HD800 e em equipamentos mais claramente divulgados:
E talvez de maior interesse para o OP, o som atrevido do Beats não é tão atraente, concedido em comparação com fones de ouvido que custam de quatro a seis vezes mais.
A resposta simples é que um sistema de resposta de frequência plana construído com amplificadores operacionais para corrigir a resposta do driver terá necessariamente uma resposta de fase muito plana na banda de passagem. Essa não planicidade significa que as frequências dos componentes dos sons transitórios ficam desigualmente atrasadas, resultando em uma distorção transitória sutil que impede o reconhecimento adequado dos componentes do som, o que significa que menos sons distintos podem ser discernidos.
Conseqüentemente, parece terrível. Como se todo o som viesse de uma bola difusa centrada exatamente entre os ouvidos.
O problema da HRTF na resposta acima é apenas parte disso - o outro é que um circuito de domínio analógico realizável pode ter apenas uma resposta de tempo causal e, para corrigir o driver corretamente, é necessário um filtro acausal.
Isso pode ser aproximado digitalmente com um filtro de resposta ao impulso finito correspondente ao driver, mas isso requer um pequeno atraso de tempo, o suficiente para tornar os filmes muito fora de sincronia.
E ainda parece que vem de dentro da sua cabeça, a menos que o HRTF também seja adicionado novamente.
Então, não é tão simples, afinal.
Para criar um sistema "transparente", você não precisa apenas de uma banda plana sobre o alcance da audição humana, também precisa de uma fase linear - um gráfico de atraso de grupo plano - e há algumas evidências que sugerem que essa fase linear precisa para continuar com uma frequência surpreendentemente alta, para que as dicas direcionais não sejam perdidas.
Isso é fácil de verificar pela experiência: abra um .wav de algumas músicas que você conhece em um editor de arquivos de som como o Audacity ou snd e exclua uma única amostra de 44100 Hz de apenas um canal e realinhe o outro para que o primeiro Agora, o exemplo acontece com o segundo do canal editado e o reproduz.
Você ouvirá uma diferença muito perceptível, mesmo que a diferença seja um atraso de tempo de apenas 1 / 44100th de segundo.
Considere o seguinte: o som gira em torno de 340 mm / ms; portanto, a 20 kHz, este é um erro de tempo de mais menos um atraso de amostra ou 50 microssegundos. São 17 mm de deslocamento do som, mas você pode ouvir a diferença com os 22,67 microssegundos ausentes, o que representa apenas 7,7 mm de deslocamento do som.
O corte absoluto da audição humana é geralmente considerado em torno de 20 kHz, então o que está acontecendo?
A resposta é que os testes auditivos são realizados com tons de teste que consistem principalmente em apenas uma frequência de cada vez, por um período bastante longo em cada parte do teste. Mas nossos ouvidos internos consistem em uma estrutura física que executa uma espécie de FFT no som enquanto expõe os neurônios, de modo que os neurônios em posições diferentes se correlacionam com frequências diferentes.
Os neurônios individuais podem apenas disparar tão rápido, então, em alguns casos, alguns são usados um após o outro para acompanhar ... mas isso só funciona até cerca de 4 kHz ... O que é exatamente onde a percepção do tom termina. No entanto, não há nada no cérebro que impeça o disparo de um neurônio a qualquer momento que seja tão inclinado; então, qual é a frequência mais alta que importa?
O ponto é que a pequena diferença de fase entre os ouvidos é perceptível, mas, em vez de mudar a maneira como identificamos os sons (por sua estrutura espectrográfica), afeta como percebemos sua direção. (que o HRTF também muda!) Mesmo que pareça que deveria ser "retirado" do nosso alcance auditivo.
A resposta é que o ponto -3dB ou mesmo -10dB ainda é muito baixo - você precisa ir até o ponto -80 dB para obter tudo. E se você quiser lidar com som alto e silencioso, precisará diminuir para -100 dB. É improvável que um teste de audição por tom único seja visto, em grande parte porque essas frequências apenas "contam" quando chegam em fase com seus outros harmônicos como parte de um som transitório agudo - sua energia nesse caso se soma, atingindo concentração suficiente para desencadear uma resposta neural, mesmo que como componentes individuais de frequência isolados eles possam ser muito pequenos para serem contados.
Outra questão é que somos constantemente bombardeados por muitas fontes de ruído ultrassônico, provavelmente por causa de neurônios quebrados em nossos ouvidos internos, danificados pelo nível sonoro excessivo em algum momento anterior de nossas vidas. Seria difícil discernir o tom de saída isolado de um teste de audição com um ruído "local" tão alto!
Portanto, isso requer um design de sistema "transparente" para usar uma frequência passa-baixo muito mais alta, para que haja espaço para o passe-baixo humano desaparecer (com sua própria modulação de fase na qual seu cérebro já está "calibrado") antes do sistema a modulação de fase começa a mudar a forma dos transitórios e a alterá-los no tempo, de modo que o cérebro não reconheça mais a que som eles pertencem.
Com os fones de ouvido, é muito mais fácil construí-los para ter um único driver de banda larga com largura de banda suficiente e contar com a resposta de frequência natural muito alta do driver 'não corrigido' para evitar distorção temporal. Isso funciona muito melhor com fones de ouvido, pois a pequena massa do driver se presta bem a essa condição.
A razão para a necessidade de linearidade de fase está profundamente enraizada na dualidade no domínio da frequência no domínio do tempo, assim como a razão pela qual você não pode construir um filtro de atraso zero que possa "corrigir perfeitamente" qualquer sistema físico real.
A razão pela qual é a "linearidade de fase" que importa e não a "planicidade de fase" é porque a inclinação geral da curva de fase não importa - por dualidade, qualquer inclinação de fase é apenas equivalente a um atraso de tempo constante.
O ouvido externo de todos tem uma forma diferente e, portanto, uma função de transferência diferente, ocorrendo em frequências ligeiramente diferentes. Seu cérebro está acostumado com o que tem, com suas próprias ressonâncias distintas. Se você usar a incorreta, ela realmente soará pior, pois as correções que seu cérebro está acostumado a fazer não corresponderão mais às da função de transferência do fone de ouvido e você terá algo pior do que a falta de cancelamento de ressonância - você terá o dobro de polos / zeros desequilibrados, atrapalhando o atraso da fase e destruindo totalmente os atrasos do grupo e os relacionamentos de tempo de chegada dos componentes.
Soará muito pouco claro e você não poderá distinguir a imagem espacial codificada pela gravação.
Se você fizer um teste de audição A / B às cegas, todos selecionarão os fones de ouvido não corrigidos, que pelo menos não alteram tanto os atrasos do grupo, para que seus cérebros possam se sintonizar neles.
E é por isso que os fones de ouvido ativos não tentam equalizar. É muito difícil de acertar.
É também por isso que a correção da sala digital é o nicho: porque usá-la corretamente requer medições freqüentes, difíceis / impossíveis de viver, e que os consumidores geralmente não querem saber.
Principalmente porque as ressonâncias acústicas na sala sob correção, que são principalmente parte da resposta de graves, continuam mudando levemente à medida que a pressão do ar, a temperatura e a umidade mudam, alterando ligeiramente a velocidade do som e alterando as ressonâncias para longe do que foram quando a medição foi feita.
fonte
Um artigo interessante e discussão. Tendemos a pensar que o teorema de Nyquist é uma regra que se aplica a todos os lugares, e depois descobrimos que não. Você mede o limite da audição humana a 20kHz usando ondas senoidais e, em seguida, obtém uma amostra de 44,1 ou 48 kHz com a confiança de que capturou tudo o que o ouvido pode ouvir. No entanto, mudar um canal por uma amostra causa mudanças significativas, embora a diferença, temporalmente, esteja acima de 20kHz.
Nas imagens em movimento, acreditamos que o olho integra imagens com uma taxa de quadros acima de 20 quadros por segundo. Assim, o filme é filmado a 24fps e reproduzido com um obturador 2x para reduzir a tremulação (48fps); A TV possui taxa de quadros de 50 ou 60 Hz, dependendo da região. Alguns de nós podem ver a taxa de quadros de 50 Hz piscar, especialmente se tivermos crescido com 60 Hz. Mas aqui é onde fica interessante. Nas conferências Tech Retreat e SMPTE da Hollywood Professional Association, nos últimos anos, foi demonstrado que um espectador médio vê uma melhora significativa na qualidade quando o quadro nativo é estendido de 60 Hz a 120 Hz. Ainda mais surpreendente, os mesmos visualizadores viram uma melhoria semelhante ao aumentar a taxa de quadros de 120 para 240 Hz. Nyquist nos diria que, se não conseguirmos ver a taxa de quadros em 24, precisamos apenas dobrar a taxa de quadros para garantir a captura de tudo o que o olho pode resolver; no entanto, aqui estamos com uma taxa de quadros de 10x e ainda observando diferenças visíveis.
Claramente, há mais coisas acontecendo aqui. No caso de imagens em movimento, o movimento na imagem afeta a taxa de quadros necessária. E em áudio, eu esperaria que a complexidade e a densidade da paisagem sonora determinassem a resolução de áudio necessária. Todos esses sons dependem muito mais de sua coerência de fase do que de resposta em frequência para fornecer a articulação necessária para a geração de imagens.
fonte