Estou tentando extrair recursos de um arquivo de som e classificá-lo como pertencendo a uma categoria específica (por exemplo: latido de cachorro, motor de veículo etc.). Gostaria de esclarecer as seguintes coisas:
1) Isso é factível? Existem programas que reconhecem a fala e diferenciam diferentes tipos de latidos de cães. Mas é possível ter um programa que possa receber uma amostra de som e apenas dizer que tipo de som é esse? (Suponha que haja um banco de dados contendo muitas amostras de som para referência). As amostras de som de entrada podem ser um pouco barulhentas (entrada de microfone).
2) Presumo que o primeiro passo seja a extração de recursos de áudio. Este artigo sugere extrair MFCCs e alimentá-los com um algoritmo de aprendizado de máquina. MFCC é suficiente? Existem outros recursos geralmente usados para classificação de som?
Obrigado pelo seu tempo.
fonte
O áudio não verbal (sem falar no meio ambiente) parece ser o irmão mais novo do fluxo principal de tipos de mídia de aprendizado de máquina, como imagens, fala, texto.
Para responder sua pergunta, é possível treinar uma rede para identificar um determinado som? Sim, ele é! Mas é difícil pelas mesmas razões que o aprendizado de máquina é difícil.
No entanto, o que realmente está impedindo o Audio, e por que eu o chamo de irmão mais novo de imagens e fala, é devido à falta de um conjunto de dados rotulado em larga escala. Para Fala, há o TIMIT, para Imagens, existem vários ImagenNet, CIFAR, Caltech, para Processamento de Texto e Linguagem Natural, existem vastos volumes de literatura, etc.
Que eu saiba, os dois maiores conjuntos de dados de áudio com identificação humana * não-verbal são os conjuntos de dados UrbanSounds e ESC-100, proibitivamente pequenos para abordagens de aprendizado realmente profundas. Existem alguns resultados mistos publicados sobre esses conjuntos de dados usando o ConvNet de duas camadas.
Os recursos do MFCC são uma representação de recursos de linha de base bem estabelecida no reconhecimento de fala e análise de áudio em geral. Mas existem muitas outras representações de recursos de áudio! Este artigo fornece uma boa taxonomia dos tipos de recursos de áudio.
O trabalho mais emocionante sobre a classificação de som que vi recentemente está sendo realizado por algumas pessoas do DeepMind, chamado WaveNet .
fonte
Aqui está uma solução para a classificação de som para 10 classes: latidos de cães, buzina de carro, crianças brincando etc. É baseada na biblioteca de fluxo de tensão usando redes neurais. Os recursos são extraídos convertendo clipes de som em espectrograma
fonte
Sim, é extremamente factível. Embora os RNs sejam excelentes nesse tipo de treinamento de classificação, eles podem até não ser necessários - com um conjunto de recursos bem escolhido, apenas os algoritmos clássicos de agrupamento, como um modelo de mistura gaussiano ou análise de componentes principais, provavelmente também . As bibliotecas modernas podem corrigir esse problema cerca de 95% das vezes ou mais.
fonte