Como um texto introdutório para todas as questões mencionadas, eu recomendaria o livro de aprendizado profundo . Ele fornece uma ampla visão geral do campo. Explica o papel que cada um desses parâmetros desempenha.
Na minha opinião, é muito útil ler sobre algumas das arquiteturas mais populares (resnet, iniciação, alex-net) e extrair as idéias principais que levam às decisões de design. Depois de ler o livro acima mencionado.
No currículo das palestras a que você se refere, é explicado em grande detalhe como a camada de convolução adiciona um grande número de parâmetros (pesos, vieses) e neurônios. Essa camada, uma vez treinada, é capaz de extrair padrões de significado da imagem. Para camadas inferiores, esses filtros se parecem com extratores de bordas. Para camadas mais altas, essas formas primitivas são combinadas para descrever formas mais complexas. Esses filtros envolvem um alto número de parâmetros e um grande problema no design de redes profundas para descrever formas complexas e ainda reduzir o número de parâmetros.
Como os pixels vizinhos estão fortemente correlacionados (especialmente nas camadas mais baixas), faz sentido reduzir o tamanho da saída subamostrando (agrupando) a resposta do filtro. Quanto mais afastados dois pixels estiverem um do outro, menos correlacionados. Portanto, um grande avanço na camada de pool leva a uma grande perda de informações. Falando livremente. Uma passada de 2 e um tamanho de kernel 2x2 para a camada de pool é uma escolha comum.
Uma abordagem mais sofisticada é a rede de Iniciação ( Aprofundando com as convoluções ), onde a idéia é aumentar a esparsidade, mas ainda conseguir uma maior precisão, trocando o número de parâmetros em uma camada convolucional versus um módulo de iniciação para redes mais profundas.
Um bom artigo que fornece dicas sobre arquiteturas atuais e o papel de algumas das dimensões do projeto de maneira estruturada e sistemática é o SqueezeNet: precisão no nível AlexNet com 50x menos parâmetros e tamanho do modelo <0,5MB . Ele se baseia nas idéias introduzidas nos modelos mencionados anteriormente.