Atualmente, estou trabalhando na recriação dos resultados deste artigo . No artigo, eles descrevem um método para usar CNN para extração de recursos e têm um modelo acústico que é Dnn-hmm e pré-treinado usando RBM.
Seção III, subseção A, declara maneiras diferentes pelas quais os dados de entrada podem ser representados. Decidi empilhar verticalmente os gráficos dos espectros delta estático e delta.
O documento descreve como deve ser a rede. Eles afirmam que usam uma rede convolucional, mas nada sobre a estrutura da rede. Além disso, a rede é sempre referida como uma camada convolucional? que tenho certeza de que vejo alguma diferença em comparação com uma rede neural convolucional de rede comum (cnn).
O artigo afirma isso sobre a diferença:
(da seção III, subseção B)
Uma camada de convolução difere de uma camada oculta padrão e totalmente conectada em dois aspectos importantes, no entanto. Primeiro, cada unidade convolucional recebe entrada apenas de uma área local da entrada. Isso significa que cada unidade representa alguns recursos de uma região local da entrada. Segundo, as próprias unidades da camada de convolução podem ser organizadas em vários mapas de características, onde todas as unidades no mesmo mapa de características compartilham os mesmos pesos, mas recebem informações de diferentes locais da camada inferior
Outra coisa que eu queria saber é se o documento realmente indica quantos parâmetros de saída são necessários para alimentar o modelo acústico dnn-hmm. Não consigo decodificar o número de filtros, tamanhos de filtros ... em detalhes gerais da rede?
fonte
Respostas:
Parece que uma camada convolucional é exatamente o mesmo que uma camada convolucional comum. Em seu trabalho, eles argumentam que o termo "camada CNN" geralmente se refere a uma camada convolucional seguida por uma camada de pool. Na tentativa de reduzir a confusão, eles chamam a parte convolucional de "camada de convolução" e a parte de pool como "camada de pool":
Ironicamente, isso aumentou a confusão, levando a este post. Na época, suponho que não era comum haver várias camadas convolucionais seguidas antes de uma camada de pool, mas vemos isso frequentemente nas arquiteturas modernas.
Para responder sua outra pergunta sobre a estrutura da rede; eles indicam a estrutura da rede que eles usam na seção Experiências (Seção VB). Para esperamos reduzir a confusão, eu substituiu a palavra "ply" com "camada":
fonte