em quase todos os exemplos de código que eu já vi de um VAE, as funções de perda são definidas da seguinte forma (este é o código do tensorflow, mas eu já vi similar para theano, tocha etc.) Também é para uma convnet, mas também não é muito relevante , afeta apenas os eixos em que as somas são...