Teorema da aproximação universal para redes convolucionais
14
O teorema da aproximação universal é um resultado bastante famoso para redes neurais, basicamente afirmando que, sob algumas suposições, uma função pode ser uniformemente aproximada por uma rede neural com precisão.
Existe algum resultado análogo que se aplica às redes neurais convolucionais?
Essa é uma pergunta interessante, no entanto, falta um esclarecimento adequado sobre o que é considerado uma rede neural convolucional .
É o único requisito que a rede precisa incluir uma operação de convolução? Precisa incluir apenas operações de convolução? As operações de pool são admitidas? As redes convolucionais usadas na prática usam uma combinação de operações, geralmente incluindo camadas totalmente conectadas (assim que você tem camadas totalmente conectadas, você tem a capacidade de aproximação universal teórica).
Para fornecer algumas respostas, considere o seguinte caso: Uma camada totalmente conectada com entradas e saídas é realizada usando uma matriz de pesos . Você pode simular esta operação usando 2 camadas de convolução:K W ∈ R K × DDKW∈ RK× D
O primeiro tem uma filtros de forma . O elemento do filtro é igual a , o restante são zeros. Essa camada transforma a entrada no espaço intermediário dimensional , onde cada dimensão representa um produto de um peso e sua entrada correspondente.D d k , d W k , d K DK× DDdk,dWk,dKD
A segunda camada contém filtros da forma . Os elementos do filtro são uns, o restante são zeros. Essa camada executa a soma dos produtos da camada anterior.K D k D … ( k + 1 ) D kKKDkD…(k+1)Dk
Essa rede convolucional simula uma rede totalmente conectada e, portanto, possui os mesmos recursos de aproximação universal. Cabe a você considerar como esse exemplo é útil na prática, mas espero que ele responda à sua pergunta.
Essa construção é bastante óbvia, mas é válida apenas com, por exemplo, condições de contorno de preenchimento zero. Com o requisito mais natural de, por exemplo, condições periódicas de contorno (tornando a tradução do operador equivalente), falha.
Jonas Adler
11
Sim, essa construção óbvia assume que a convolução é aplicada apenas na entrada (sem preenchimento). Como eu disse, a menos que você especifique o que é permitido e o que não está na sua definição de CNN, presumo que seja uma abordagem válida. Além disso, observe que as implicações práticas do UAT são praticamente inexistentes, portanto, não tenho certeza se faz sentido aprofundar muito nisso, especificando várias versões da CNN e demonstrando algo semelhante para cada uma delas.
O artigo mostra que qualquer função equivariante da tradução pode ser aproximada arbitrariamente bem por uma rede neural convolucional, uma vez que é suficientemente ampla, em analogia direta ao teorema clássico da aproximação universal.
Veja o artigo Universalidade de redes neurais convolucionais profundas de Ding-Xuan Zhou , que mostra que as redes neurais convolucionais são universais, ou seja, elas podem aproximar qualquer função contínua a uma precisão arbitrária quando a profundidade da rede neural for grande o suficiente.
Parece que essa pergunta foi respondida afirmativamente neste artigo recente de Dmitry Yarotsky: Aproximações universais de mapas invariantes por redes neurais .
O artigo mostra que qualquer função equivariante da tradução pode ser aproximada arbitrariamente bem por uma rede neural convolucional, uma vez que é suficientemente ampla, em analogia direta ao teorema clássico da aproximação universal.
fonte
Veja o artigo Universalidade de redes neurais convolucionais profundas de Ding-Xuan Zhou , que mostra que as redes neurais convolucionais são universais, ou seja, elas podem aproximar qualquer função contínua a uma precisão arbitrária quando a profundidade da rede neural for grande o suficiente.
fonte