Uma técnica de processamento de sinal, o Mel frequency Cepstrum , é freqüentemente usada para extrair informações de uma peça musical para uso em tarefas de aprendizado de máquina. Este método fornece um espectro de potência de curto prazo, e os coeficientes são usados como entrada.
Ao projetar sistemas de recuperação de música, esses coeficientes são considerados característicos de uma peça (obviamente não necessariamente únicos, mas distintos). Existem características que melhor se adequariam ao aprendizado com uma rede? Características variáveis no tempo, como a progressão dos graves da peça usada em algo como uma rede Elman, funcionariam com mais eficiência?
Quais características formariam um conjunto suficientemente extenso sobre o qual a classificação poderia ocorrer?
Respostas:
Nós fizemos um pouco de trabalho nisso em um ponto. O conjunto de recursos que extraímos é apresentado neste documento do workshop do NIPS . Devo admitir que não conseguimos replicar os resultados de alguns outros autores no campo, embora houvesse algumas dúvidas sobre os conjuntos de dados usados neles (observe que os conjuntos de dados usados pelos autores nesse campo tendem a ser escolhidos a dedo e não liberados ao público, por razões de direitos autorais, embora isso nem sempre seja o caso). Essencialmente, eles eram todos recursos espectrais de curto prazotambém com coeficientes de regressão automática. Estávamos analisando a classificação de gênero, que sabemos que pode ser feita por seres humanos (embora não com uma precisão maravilhosa e sem concordância consistente ...) em prazos muito curtos (<1s), que valida o uso de recursos de curto prazo . Se você estiver interessado em fazer coisas mais complicadas do que a classificação típica de gênero / artista / álbum / produtor, poderá precisar de mais recursos de longo alcance; caso contrário, esses recursos espectrais de curto prazo tendem a apresentar melhor desempenho.
fonte