No artigo Super-resolução de imagem única foto-realista usando uma rede adversa generativa de Christian Ledig et al., A distância entre imagens (usada na função de perda) é calculada a partir de mapas de características extraídos da rede VGG19. Os dois usados no artigo são (um pouco confusos) chamados VGG22 e VGG54.
Quais são esses mapas de recursos?
O que significam as designações "22" e "54"?
deep-learning
cnn
gan
Lafayette
fonte
fonte
Respostas:
Lendo o artigo, parece que eles definem VGG54 como a perda calculada a partir da distância euclidiana entre oϕ5,4 mapas de recursos derivados das imagens de alta e baixa resolução usando a rede VGG19. Ondeϕi,j é definido como " o mapa de recursos obtido pela j-ésima convolução (após a ativação) e antes da i-ésima camada de pool máximo dentro da rede VGG19 ".
fonte