O que exatamente é um bloco de Aprendizagem Residual no contexto de Redes Residuais Profundas na Aprendizagem Profunda?

12

Eu estava lendo o artigo Deep Residual Learning for Image Reconhecimento e tive dificuldades em entender com 100% de certeza o que um bloco residual implica computacionalmente. Lendo o trabalho deles, eles têm a figura 2:

insira a descrição da imagem aqui

que ilustra o que um bloco residual é suposto ser. O cálculo de um bloco residual é simplesmente o mesmo que:

y=σ(W2σ(W1x+b1)+b2+x)

Ou é outra coisa?

Em outras palavras, talvez para tentar corresponder à notação do artigo, é:

F(x)+x=[W2σ(W1x+b1)+b2]+x

isso é verdade?

Observe que após a soma do círculo, a palavra ReLU aparece no papel; portanto, a saída de um bloco residual (que eu denotei por ) deve ser:y

σ(F(x)+x)=σ([W2σ(W1x+b1)+b2]+x)

com uma não linearidade adicional da ReLU .σ

Charlie Parker
fonte
é X é Relu positiva (x) = x
Raio Tayek

Respostas:

5

Sim, é verdade, você pode dar uma olhada no modelo caffe para ver como ele é implementado.

dontloo
fonte