Minha pergunta é: Que modelo matemático do som polifônico pode possibilitar a alteração (ou seja, alteração de afinação) de notas musicais individuais em uma gravação de áudio com várias vozes em um único canal de um instrumento musical acústico polifônico? Ao 'alterar notas em áudio polifônico', quero dizer algo como editar som com o chamado recurso ' Direct Note Access ' no software Melodyne da celeony.
De acordo com a wikipedia , o que Melodyne usa para modelar o sinal de áudio de uma melodia de linha única tocada em um instrumento musical acústico (e, portanto, complexo timbral) é algo como o que Henning Thielemann descreve em seu artigo intitulado " Desembaraçar fase e tempo em sons monofônicos ". Não encontro referência a modelos de sinais de áudio de instrumentos musicais polifônicos; de acordo com uma entrevista no YouTube de Peter Neubacker (transcrita abaixo), o recurso de Melodyne para lidar com a edição de áudio polifônico requer uma abordagem diferente da descrita por Thielemann.
Uma pista de outro clipe do youtube é que o modelo do Neubacker funciona melhor com o registro de áudio de apenas um TIPO de instrumento (ou seja, apenas piano, apenas guitarra, apenas cordas, apenas ventos, etc.). Outra pista é mais um clipe mostrando a capacidade de não apenas mudar o tom de uma nota, mas também o tempo (inicial e final) dela.
Abaixo está a transcrição do vídeo do youtube, que mencionou que "os materiais polifônicos exigem uma abordagem diferente" (caso você não tenha tempo para assistir a partir das 22:00).
A questão da qual Melodyne surgiu: como obter um som de uma forma tridimensional como esta [gesticulando com pedra na mão]? Por que meios, o som pode então ser liberado de sua dependência do tempo contínuo? Essa escultura é realmente o que emergiu disso ... É um pedaço de plástico ... Isso foi derivado diretamente de dados musicais. Este objeto está [tocando uma nota no alaúde] esta nota. É melhor visualizado como este, da esquerda para a direita. O tempo corre nessa direção [gesticulando da esquerda para a direita]. E essa é a amplitude [gesticulando grandes e pequenos com o polegar oposto ao dedo]. Se eu ligá-lo, ele representa o timbre desse som em qualquer instância. Você pode ver muito claramente aqui uma estrutura [apontando para a seção transversal na parte inferior da escultura] que é um pouco triangular; isso é porque neste som,
Como Melodyne ainda não existia e eu estava simplesmente experimentando a tradução do som para essa forma, trabalhei quase um ano com esse som. ... Conheço esse som por dentro, por fora e de cor. Isso também fornece uma boa ilustração do som local. Eu posso, não apenas reproduzir o som [clicando com o mouse], mas também inserir o som de qualquer ponto e movê-lo tão devagar ou rapidamente quanto quiser. Eu posso até demorar no som, ou avançar e recuar, então se eu examinar um lugar aqui ... contorná-lo. ... Dez anos atrás, era novo.
Recentemente, o DNA (acesso direto à nota) foi adicionado. Com ele, também posso editar músicas polifônicas. Em outras palavras, eu posso editar notas individualmente que soam simultaneamente, como, por exemplo, uma gravação de violão. Se agora eu tocar um acorde pequeno [selecionando Poly -> Separate Notes na tela], vemos aqui as 3 notas que acabei de tocar como entidades separadas. Vamos ouvir novamente [o computador toca acordes menores]. E agora, como se movendo meu dedo para um traste mais alto, posso aumentar essa nota [arrastando uma nota na tela para cima; o computador toca acordes principais]. Para o áudio dividido, posso isolar esta nota e movê-la para cima ou para baixo à vontade agora, para qualquer tom que eu quiser.
Por que ninguém foi capaz de isolar tons individuais em materiais complexos dessa maneira? Sinceramente, não sei. Na ciência, a tendência natural é começar com algo simples, uma onda senoidal, por exemplo, ou notas individuais, e analisar isso primeiro, apenas para descobrir quando o material se torna mais complexo ou precisa ser tratado na íntegra, que o sistema não funciona Minha abordagem é diferente. Na verdade, começo com sinais complexos, e é só quando quero examinar algo em detalhes que volto aos mais simples, mas primeiro tenho que ter uma impressão geral do que realmente está acontecendo na realidade.
O segredo talvez esteja nesse papel? Heheh, este é realmente um rolo de loo. A questão originalmente levantada pela pedra era como traduzir um determinado som em uma forma tridimensional. Aqui, organizei os indivíduos amostrando valores do som, indicados aqui por um dois três e assim, em espiral. E acontece que, se você interpolar entre os pontos [gesticulando através da espiral], surge uma paisagem que também representa as seções transversais individuais no som [seções transversais da escultura em gestos].
Quantos anos tem o rolo? 12 anos. Então essa ideia é a fonte de Melodyne, de tudo o que vimos hoje ...? Sim, mas essa maneira de enrolar o som não seria mais útil para materiais polifônicos, o que exige uma abordagem diferente.
Respostas:
TL; DR? Google Scholar para separação parcial harmônica .
Um bom ponto de partida seria as técnicas de modelagem sinusoidal que separam o sinal em componentes senoidal + ruído (determinístico e estocástico). O componente determinístico, composto de senos, pode ser ressintetizado de forma convincente:
http://mtg.upf.edu/files/projectsweb/sms-piano-original.wav
http://mtg.upf.edu/files/projectsweb/sms-piano-deterministic.wav
Os senos são subtraídos do sinal e a parte barulhenta / estocástica permanece.
http://mtg.upf.edu/files/projectsweb/sms-piano-stochastic.wav
A porção estocástica é sintetizada colocando-se ruído através de algum filtro de modelagem de ruído. Alguns outros estenderam isso para um modelo senoidal + ruído + transitório, que ajuda a preservar os recursos estocásticos transitórios no alongamento do tempo.
https://ccrma.stanford.edu/~jos/sasp/Sines_Noise_Modeling.html
http://mtg.upf.edu/technologies/sms
Depois de ter os parâmetros sinusoidais de um sinal, é possível separar os senos das notas sobrepostas procurando razões harmônicas e agrupando por início, etc. O rastreamento parcial gera muitos resultados no Google Scholar.
http://recherche.ircam.fr/equipes/analyse-synthese/lagrange/research/papers/lagrangeIcassp05.pdf
http://dream.cs.bath.ac.uk/software/sndan/mqan.html
Modelos de Markov ocultos , polinômios e Macaulay-Quatieri são alguns dos métodos. Estou perplexo em separar as sobras estocásticas em duas notas. Não sei como Melodyne lida com isso.
fonte
A abordagem usada no melodyne requer 2 operações separadas no domínio da frequência. Primeiramente, técnicas de transcrição polifônica são usadas para agrupar componentes de frequência (de uma transformação de frequência padrão) do áudio polifônico em ativações de notas. Em outras palavras, agrupe subconjuntos harmônicos de acordo com as ativações de notas mais prováveis. Veja minha resposta à postagem "Reconhecimento de acordes polifônicos inversos" neste fórum para obter referências e modelos matemáticos.
A segunda operação é a mudança de pitch no domínio da frequência dos subconjuntos harmônicos extraídos acima. Não tenho certeza, mas eu quase garantiria que Melodyne use uma abordagem de fase de vocoder para conseguir isso. Você também pode alongar o tempo usando esta técnica . Usamos técnicas semelhantes a essas no Riffstation e elas funcionam muito bem.
fonte
Uma possibilidade pode ser a análise / re-síntese usando uma abordagem estatística de correspondência de padrões. Se você conhece ou consegue adivinhar razoavelmente a mistura de instrumentos envolvidos e possui modelos (incluindo transitórios iniciais, espectro mais evolução espectral etc.) para os sons do instrumento para todas as notas esperadas, tente uma correspondência estatística de um grande número de acordes sãos combinações usando os padrões de som do modelo para estimar as combinações polifônicas mais prováveis. Isso provavelmente seria uma pesquisa muito intensiva em termos computacionais de mínimos globais, onde várias técnicas de pesquisa semelhantes a "IA" podem ser úteis. Você pode então pegar as várias probabilidades de acordes individuais e, em seguida, usar as teorias de decisão para escolher as sequências polifônicas mais prováveis no tempo.
Depois, faça as anotações estimadas e as sintetize novamente no tom e na duração escolhidos.
fonte