A fatoração de matriz não negativa visa fatorar uma matriz no produto de duas matrizes, , Onde representa um conjunto de vetores de base e suas ativações ou pesos. Aplicado à separação da fonte de áudio, é o espectrograma (que é conhecido por nós) e é o espectro não negativo básico, são suas ativações temporais.
Parece que sou capaz de expressar um espectrograma como uma soma de diferentes caixas de frequência e suas magnitudes - o que ajudaria a filtrar ou separar diferentes arremessos (aparentemente fazendo o trabalho de um filtro passa-banda normal?). Eu não entendo como isso realmente separaria, digamos, um piano e um cantor cantando o mesmo tom ou similar.
audio
source-separation
Samyukta Ramnath
fonte
fonte
Respostas:
Lembre-se de que as colunas deW pode ser visto como vetores "básicos" (ou elementos de um dicionário - os blocos de construção de qualquer sinal) e elementos em cada coluna H forneça os pesos correspondentes (que variam com o tempo). Isso nos permite decompor o espectrograma com base não apenas em componentes de frequência, mas também em informações de início temporal; portanto, faz mais do que o que um simples filtro passa-banda ou filtro pente faria.
A fatoração matricial não negativa de um espectrograma não separa magicamente um piano e um cantor cantando no mesmo tom. No entanto, fornece uma aproximação útil em termos de uma soma de vetores de base ponderada que (esperançosamente) podem ser divididos em contribuições de diferentes fontes, porque é improvável que cada fonte ocupe exatamente a mesma faixa de frequência exatamente no mesmo instante.
Mais concretamente, vamosV estar M×N , W estar M×K e H estar K×N . Então nós temosM caixas de frequência, N amostras de tempo e K componentes decompostos. E sewi são as colunas de W e hi são as linhas de H nós podemos escrever:
Na realidade, provavelmente acabaremos com uma decomposição que nunca atinge exatamente essa separação. Ou seja, haveráwi que têm contribuições tanto do cantor quanto do piano, dificultando a separação dos dois.
Aqui está um caderno Python mostrando este procedimento para uma mistura de bateria e guitarra: http://nbviewer.jupyter.org/gist/ingle/93de575aac6a4c7fe9ee5f3d5adab98f (ou, se isso não funcionar, aqui: https://gist.github.com / ingle / 93de575aac6a4c7fe9ee5f3d5adab98f )
Observe que o algoritmo NMF gera apenas uma decomposição. Não pode selecionar subconjuntos de{wi} correspondente a cada fonte. No exemplo do Python, há uma etapa manual de descobrir quaiswi O som é mais parecido com a guitarra v / s drum. Pode-se talvez automatizar essa etapa observando que o tamborwi vetores têm mais coisas em frequências mais baixas.
Analisar cada coluna (quadro) do espectrograma usando um banco de filtros passa-banda é outra maneira de decompor o espectrograma. No entanto, observe que a decomposição gerada pelo NMF é baixa, ou seja, parcimoniosa. No exemplo do Python, era muito mais fácil selecionar manualmente subconjuntos de 16 colunas deW correspondente às duas fontes. Com um banco de filtros passa-banda, teríamos que girar muito mais botões (# filtros, localizações das faixas-passe para cada quadro) e o número de combinações de parâmetros pode crescer muito rapidamente.
Referências:
https://ccrma.stanford.edu/~njb/teaching/sstutorial/part2.pdf
http://musicinformationretrieval.com/nmf.html
fonte
Objetivo: boa aproximação de separar um cantor de um piano. Agora, algumas considerações sobre os requisitos para uma separação precisa das fontes sonoras, uma vez que é improvável que TODAS as informações de entrada sejam necessárias para fazer uma separação precisa (possivelmente seus "vetores básicos"):
- para cada volume de cada nota do piano, o resultado distribuição de frequência amostrada ao longo do tempo (conforme ataca e desaparece). - para cada nota X volume X fonema dos cantores exprime a distribuição de frequências (e sua variação com vários níveis de vibrato). - para todos os itens acima, o efeito de reverberação deve ser considerado. - a letra da música (para combinar com os fonemas do cantor)
Também existem restrições no domínio do tempo, como cada nota de piano deve começar com o ataque e os efeitos do pedal de sustentação do piano (amortecimento repentino quase simultâneo de notas que estavam "tocando", embora as teclas correspondentes tenham sido liberadas)
Dado o exposto acima, a busca é a soma "melhor ajuste" de um conjunto de espectros de notas de piano e um espectro de fone-volume-fonema de uma única nota do cantor para aproximar o som resultante.
fonte