O que são "VGG54" e "VGG22" derivados da CNN VGG19?

No artigo Super-resolução de imagem única foto-realista usando uma rede adversa generativa de Christian Ledig et al., A distância entre imagens (usada na função de perda) é calculada a partir de mapas de características extraídos da rede VGG19. Os dois usados no artigo são (um pouco confusos) chamados VGG22 e VGG54.

Quais são esses mapas de recursos?

O que significam as designações "22" e "54"?

deep-learning cnn gan Lafayette
fonte

19 é o número de camadas. Provavelmente o resto significa o mesmo?

31417 Alex

Se fosse assim tão simples ... ;-) Essas são designações de mapeamento a partir do VGG19, não redes por si só.

Lafayette

Eu nunca li o jornal. Esta é a primeira coisa que vem à mente quando vejo o acrônimo.

Alex

Sua suposição é realmente razoável, mas eles dizem que não é o caso, apenas a rede VGG19 é usada.

Lafayette

Respostas:

Lendo o artigo, parece que eles definem VGG54 como a perda calculada a partir da distância euclidiana entre o $\phi_{5,4}$ mapas de recursos derivados das imagens de alta e baixa resolução usando a rede VGG19. Onde $\phi_{i,j}$ é definido como " o mapa de recursos obtido pela j-ésima convolução (após a ativação) e antes da i-ésima camada de pool máximo dentro da rede VGG19 ".

Carlos S. Na
fonte

Presumo que o mesmo seja verdade para o VGG22 - isto é, é a perda calculada em ϕ2,2. Isso está certo?

Lafayette

Isso está correto :) #

Carlos S. Na

Você pode elaborar "o mapa de recursos obtido pela j-ésima convolução (após a ativação) e antes da i-ésima camada de pool máximo dentro da rede VGG19"?

ϕ_{5, 4}

$\phi_{5,4}$ significa

4^{t h}

$4^{th}$ camada antes

5^{t h}

$5^{th}$ camada de pool máximo, certo? Mas

4^{t h}

$4^{th}$ camada tem tantos filtros (acho 512). Portanto, teríamos 512 espaços de recursos. Qual deles escolher? Além disso, o que significa "após a ativação"?

Nagabhushan SN