Um autoencoder variacional (VAE) fornece uma maneira de aprender a distribuição de probabilidade relacionando uma entrada à sua representação latente . Em particular, o codificador mapeia uma entrada para uma distribuição em . Um codificador típico produzirá parâmetros , representando a distribuição gaussiana ; essa distribuição é usada como nossa aproximação para .
Alguém já considerou um VAE em que a saída é um modelo de mistura gaussiana, em vez de gaussiana? Isso é útil? Existem tarefas em que isso é significativamente mais eficaz do que uma simples distribuição gaussiana? Ou isso oferece pouco benefício?
Respostas:
Sim, foi feito. O documento a seguir implementa algo dessa forma:
Clustering não supervisionado profundo com autoencodificadores variacionais de mistura gaussiana . Nat Dilokthanakul, Pedro AM Mediano, Marta Garnelo, Matthew CH Lee, Hugh Salimbeni, Kai Arulkumaran, Murray Shanahan.
Eles experimentam o uso dessa abordagem para cluster. Cada gaussiano na mistura gaussiana corresponde a um cluster diferente. Como a mistura gaussiana está no espaço latente ( ) e há uma rede neural conectando a , isso permite agrupamentos não triviais no espaço de entrada ( ).z z x x
Esse documento também menciona a seguinte postagem no blog, que experimenta uma variação diferente dessa arquitetura: http://ruishu.io/2016/12/25/gmvae/
Obrigado a shimao por apontar isso.
fonte