Eu tenho uma boa compreensão geral do papel e mecanismo das camadas convolucionais no Deep Learning para processamento de imagens no caso de implementações 2D ou 3D - elas "simplesmente" tentam capturar padrões 2D nas imagens (em 3 canais no caso de 3D).
Mas, recentemente, esbarrei em camadas convolucionais 1D no contexto do Processamento de linguagem natural, o que é uma espécie de surpresa para mim, porque, no meu entendimento, a convolução 2D é especialmente usada para capturar padrões 2D que são impossíveis de revelar na forma 1D (vetor) de pixels da imagem. Qual é a lógica por trás da convolução 1D?
fonte