Em " Redes de crenças profundas convolucionais para o aprendizado não supervisionado e escalável de representações hierárquicas ", de Lee et. al. ( PDF ) São propostos DBNs convolucionais. O método também é avaliado para a classificação de imagens. Isso parece lógico, pois existem recursos naturais da imagem local, como pequenos cantos e bordas, etc.
Em " Aprendizado não supervisionado de recursos para classificação de áudio usando redes convolucionais de crenças profundas ", de Lee et. al. esse método é aplicado ao áudio em diferentes tipos de classificações. Identificação de alto-falante, identificação de gênero, classificação por telefone e também alguns gêneros musicais / classificação de artistas.
Como a parte convolucional dessa rede pode ser interpretada para áudio, como pode ser explicada para imagens como bordas?
Respostas:
O aplicativo de áudio é uma simplificação unidimensional do problema de classificação de imagem bidimensional. Um fonema (por exemplo) é o analógico de áudio de um recurso de imagem, como uma borda ou um círculo. Em ambos os casos, esses recursos têm uma localidade essencial: são caracterizados por valores em uma vizinhança relativamente pequena de um local da imagem ou momento da fala. As convoluções são uma forma controlada e regular de média ponderada dos valores nas vizinhanças locais. Disso se origina a esperança de que uma forma convolucional de um DBN possa ser bem-sucedida na identificação e discriminação de características significativas.
fonte
No caso de RBMs convolucionais aplicadas a dados de áudio, os autores primeiro fizeram a Transformada de Fourier a Curto Prazo e depois definiram faixas de energia no espectro. Então eles aplicaram RBMs convolucionais nesse áudio transformado.
fonte