Pelo que entendi, o DCT tem metade do tamanho do compartimento como um DFT do mesmo tamanho N. O DFT também inclui informações de fase, mas muitas vezes isso não é necessário quando apenas o espectro de magnitude é desejado.
- O DCT poderia ser usado para fornecer um espectro de magnitude com o dobro da densidade (metade do espaçamento entre caixas) da DFT ou as informações fora de fase seriam perdidas?
- Que tal com uma sobreposição de 50%?
Respostas:
Sim, o DCT pode ser usado para fornecer um espectro de magnitude com o dobro da densidade. Não entendo bem a sobreposição, mas estou assumindo que, como o DCT cobre menos, você pensou que haveria uma sobreposição. Para fornecer uma resposta qualificada à pergunta, faça uma revisão rápida do uso do DCT principalmente no processamento de imagens.
Primeiro, precisamos fazer algumas suposições. Para usar o DCT, você precisa ter um sinal real. Isto é por definição. Enquanto você está dizendo, o DCT tem metade do tamanho do compartimento em comparação com o DFT no tamanho N, você está assumindo que o sinal é de baixa frequência. Caso contrário, nem tanto.
Para o uso de DCT na compactação, como a DFT da imagem será simétrica, ela produz informações redundantes (um espelho lateral será suficiente para reproduzir o sinal). Portanto, o kernel do DCT é usado para produzir informações mais densas em comparação ao DFT. Isso também é válido para sinais de áudio de baixa frequência, pois pode ser usado da mesma maneira. Enquanto o torna mais denso, os coeficientes aumentam, pois o núcleo do DCT cobre os dois lados (partes reais e imaginárias) do sinal.
Meu principal é processamento de imagens, então tentei mapear conceitos e explicações sobre DCT e DFT no processamento de imagens. Uma diferença entre imagem e áudio pode ser o tamanho. No processamento de imagens, você conhece os tamanhos (linha e colunas para FFT e outras finalidades de processamento). Eu acho que você precisa dividir o vetor de dados de áudio de alguma forma para continuar processando. Sem conhecer os dados, isso pode ser problemático (não tenho certeza).
Aqui está uma imagem tirada da web, mas eu não a escrevi para onde a tirei, poderia ser na Wikipedia;
Como você pode ver, a imagem transformada é representada no DCT pelo espectro de magnitude sem nenhum problema. De uma maneira mais compacta e mais densa, observe a magnitude dos coeficientes. É maior que duas vezes o DFT. DFT é simétrico, você pode dividi-lo em dois. Uma parte é redundante. E mais uma coisa, o DCT pode armazenar as informações não apenas na metade da DFT, mas em quase um quarto da DFT. Esse é geralmente o caso da DCT superando a DFT em imagens.
fonte
A partir desta pergunta, entendo que você está pensando em realizar processamento localizado em bloco, da maneira que desliza Fourier ou espectrograma.
Se você falar sobre espectro de magnitude, é claro que parte da fase (seja o argumento de um coeficiente de Fourier complexo ou o sinal de um coeficiente de DCT) será perdido de qualquer maneira .
Portanto, é claro que você pode conectar muitos kernels em substituição à transformada de Fourier com janela dentro da formulação de Fourier de curto prazo apenas para análise. As várias raças de DCT, suas versões sobrepostas (LOT, MDCT), com boas propriedades ortogonais e de janela, podem até ser invertidas (síntese).
Em áudio, versões DCT (não complexas) ou sobrepostas são frequentemente usadas para análise, detecção de onset e pitch, (separação de fontes cegas), por exemplo, o STFT, MDCT e inverte a caixa de ferramentas Matlab de A. Liutkus. A caixa de ferramentas de análise de frequência em tempo integral (LTFAT) também possui:
Eu não conheço áudio muito bem. No entanto, uma sobreposição de 50% ou 75% é muito comum e poucas pessoas usam outras configurações. No entanto, é muito comum usar pelo menos dois tamanhos de janelas , uma longa com parte estacionária e outra curta para transitória, para ajudar a superar a limitação de frequência de tempo de "uma janela".
fonte