Eu estava lendo o artigo Deep Residual Learning for Image Reconhecimento e tive dificuldades em entender com 100% de certeza o que um bloco residual implica computacionalmente. Lendo o trabalho deles, eles têm a figura 2:
que ilustra o que um bloco residual é suposto ser. O cálculo de um bloco residual é simplesmente o mesmo que:
Ou é outra coisa?
Em outras palavras, talvez para tentar corresponder à notação do artigo, é:
isso é verdade?
Observe que após a soma do círculo, a palavra ReLU aparece no papel; portanto, a saída de um bloco residual (que eu denotei por ) deve ser:
com uma não linearidade adicional da ReLU .
machine-learning
neural-networks
deep-learning
conv-neural-network
residual-networks
Charlie Parker
fonte
fonte
Respostas:
Sim, é verdade, você pode dar uma olhada no modelo caffe para ver como ele é implementado.
fonte