Karlheinz Brandenburg descreve um codificador MP3 como este:
Fonte: MP3 e AAC Explained
Marquei a FFT porque não tenho muita certeza do porquê é realmente necessário realizar uma. Por que o modelo psicoacústico não pode ser aplicado às chamadas linhas após a transformada discreta de cosseno modificada (MDCT) sem executar uma FFT?
Eu tenho alguma literatura aqui, dizendo que a resolução de frequência não é precisa o suficiente. Isso significa que dividir o sinal original em 576 linhas (como o banco de filtros e o MDCT) não é preciso o suficiente para o modelo psicoacústico funcionar corretamente? A FFT é mais precisa?
algorithms
data-compression
fourier-transform
Phonolog
fonte
fonte
Respostas:
Eu sugeriria uma explicação mais detalhada do codec mp3 .
A FFT é aplicada no sinal no domínio do tempo, portanto, na verdade, ela não usa o resultado da MDCT. A entrada para os modelos psicoacústicos está no domínio da frequência, daí a FFT.
Existem pelo menos várias razões para fazê-lo. O MDCT com filtrobanks opera em pedaços sobrepostos muito curtos, maximizando a compactação - o FFT usa amostras mais longas e tem melhor resolução espectral. (É difícil comparar, pois o MDCT opera como transformação de curto prazo; se isso é de grande importância para você, precisarei fazer essa comparação.)
É possível pensar no MDCT do banco de filtros da mesma maneira que na quantização JPEG (é uma analogia muito boa, pois ambos usam DCT) e FFT para detectar artefatos DCT da compactação. Então, o modelo psicoacústico suaviza os erros para que caiam abaixo do limiar "audível", mas para fazer isso, as amostras no domínio do tempo (aqui PCM - Modulação de código de pulso não são suficientes, porque mudanças súbitas de frequência são ouvidas como rachaduras) - então ele usa o domínio da frequência para detectar essas descontinuidades e depois suavizá-lo no domínio do tempo.
Duas coisas não são explicadas nos artigos, mas são cruciais. Quando as diferenças de PCM são altas, o alto-falante tem mais distância para viajar, portanto, há um atraso de tempo e, dependendo das habilidades do alto-falante, pode causar apenas vibrações adicionais, que são ruídos bastante distintos do alto-falante. A segunda parte é entre linhas, a versão quantizada do sinal é transformada novamente para compará-lo com o som original e verificar o quanto ele se desvia.
Com base no tipo de máscara das janelas (com base na comparação de FFT e MDCT invertido), é escolhido para compensar melhor os desvios audíveis do original.
Os seres humanos percebem mudanças de frequência melhores que as mudanças de amplitude, de modo que o filtro opera nos dois domínios de uma só vez, e o sinal quantizado é revertido e a suavização é feita no domínio do tempo.
Sim, a resolução do MDCT com bancos de filtros não é suficiente, mas é a parte em que ocorre uma parte justa da compactação e, em seguida, é mascarada. Mas o modelo psicoacústico tem resolução espectral, conforme apresentado no artigo.
Sim, a FFT é mais precisa porque obtém amostras mais longas, por isso tem melhor resolução entre as caixas.
Nota de rodapé
O (M) DCT é geralmente implementado executando a FFT, portanto, isso não tem nada a ver com a transformação usada. A MDCT pode ser vista como uma transformada de Fourier de curto prazo modificada em bits com um filtro especialmente escolhido (os bancos de filtros se assemelham à escala Mel para reconhecimento de fala).
A FFT é usada por mais tempo, fornece algoritmos mais fáceis para a mudança de tom e é mais fácil de aplicar no som. (M) O DCT minimiza o número de componentes, o que significa que podemos cortar mais dados do resultado do que da FFT.
Porém, no caso de som, esses componentes não são estáveis, o corte sempre, por exemplo, de dois compartimentos, resultará em maior distorção entre os quadros consecutivos do que em operações equivalentes nos resultados da FFT. Portanto, a conexão entre a FFT e o que ouvimos é maior que (M) DCT e o que ouvimos, mas a compressão disponível é o contrário.
fonte