Recentemente, vimos o surgimento da Rede Neural Residual, em que cada camada consiste em um módulo computacional e uma conexão de atalho que preserva a entrada na camada, como mostra a saída da i-ésima camada: A rede permite extrair recursos residuais e permite uma profundidade mais profunda, ao mesmo tempo em que é mais robusta ao problema do gradiente de fuga, alcançando um desempenho de última geração.y i + 1 = c i + y i
Tendo investigado o aumento de gradiente , uma técnica de montagem muito poderosa no mundo do aprendizado de máquina, que também parece executar uma forma de otimização de gradiente no resíduo da perda. É difícil não ver alguma forma de semelhança.
Eu sei que eles são semelhantes, mas não são os mesmos - uma grande diferença que notei é que o aumento do gradiente realiza otimização no termo aditivo, enquanto a rede residual otimiza toda a rede.
Não vi Ele et al. Notar isso como parte de sua motivação em seu artigo original . Então, fiquei pensando quais são as suas idéias sobre esse tópico e solicite que você compartilhe recursos interessantes que você possui.
Obrigado.