As redes residuais estão relacionadas ao aumento de gradiente?

11

Recentemente, vimos o surgimento da Rede Neural Residual, em que cada camada consiste em um módulo computacional e uma conexão de atalho que preserva a entrada na camada, como mostra a saída da i-ésima camada: A rede permite extrair recursos residuais e permite uma profundidade mais profunda, ao mesmo tempo em que é mais robusta ao problema do gradiente de fuga, alcançando um desempenho de última geração.y i + 1 = c i + y ici

yi+1=ci+yi

Tendo investigado o aumento de gradiente , uma técnica de montagem muito poderosa no mundo do aprendizado de máquina, que também parece executar uma forma de otimização de gradiente no resíduo da perda. É difícil não ver alguma forma de semelhança.

Eu sei que eles são semelhantes, mas não são os mesmos - uma grande diferença que notei é que o aumento do gradiente realiza otimização no termo aditivo, enquanto a rede residual otimiza toda a rede.

Não vi Ele et al. Notar isso como parte de sua motivação em seu artigo original . Então, fiquei pensando quais são as suas idéias sobre esse tópico e solicite que você compartilhe recursos interessantes que você possui.

Obrigado.

rhadar
fonte

Respostas:

7

Potencialmente, um artigo mais recente que tenta abordar mais sobre isso da equipe de Langford e Shapire: Aprendendo blocos Deep ResNet sequencialmente usando a Teoria do Impulso

As partes de interesse são (Veja a seção 3):

t=0Tft(gt(x))wt

ot(x):=wtTgt(x)R

...

ot(x)=t=0t1wtTft(gt(x))

ht(x)


Adicionando um pouco mais de detalhes a essa resposta, todos os algoritmos de impulso podem ser escritos de alguma forma [1] (p 5, 180, 185 ...):

FT(x):=t=0Tαtht(x)

httthαtαtht

htϵtαt=12log1ϵtϵt

htL(Ft1(x))htαt>0

TF(x)

F(x)t=0Tht(x)

FT(x):=t=0Tαtht(x)

[1] Robert E. Schapire e Yoav Freund. 2012. Boosting: Fundações e Algoritmos. O MIT Pressione. p 5, 180, 189
[2] Furong Huang, Jordan Ash, John Langford e Robert Schapire: aprendendo blocos ResNet profundos sequencialmente usando a teoria de impulso, ICML 2018

chappers
fonte
4

Respondendo à minha própria pergunta: Encontrei um artigo notável que investiga e prova que as Redes Residuais Profundas são realmente um conjunto de redes rasas.

EM OUTRA EDIÇÃO, depois de compreender esse problema, abit mais: Eu olho para as Resnets como uma maneira de aprender 'Reforço de Recursos'. A conexão residual realiza um aumento, mas não no objetivo, mas na verdade nos recursos de saída da próxima camada. Portanto, eles estão de fato conectados, mas não é um aumento clássico do gradiente, mas, na verdade, 'Gradient Feature Boosting'.

rhadar
fonte