Como funciona o truque de reparameterização para auto-codificadores variacionais (VAE)? Existe uma explicação intuitiva e fácil sem simplificar a matemática subjacente? E por que precisamos do
Os métodos bayesianos variacionais aproximam as integrais intratáveis encontradas na inferência bayesiana e no aprendizado de máquina. Primeiramente, esses métodos têm dois propósitos: Aproximar a distribuição posterior ou limitar a probabilidade marginal de dados observados.
Como funciona o truque de reparameterização para auto-codificadores variacionais (VAE)? Existe uma explicação intuitiva e fácil sem simplificar a matemática subjacente? E por que precisamos do
Eu acho que entendi a ideia geral do VI e do MCMC, incluindo os vários sabores do MCMC, como amostras de Gibbs, Metropolis Hastings etc. Este artigo fornece uma maravilhosa exposição de ambos os métodos. Tenho as seguintes perguntas: Se eu gostaria de fazer inferência bayesiana, por que...
Li em algum lugar que o método Variational Bayes é uma generalização do algoritmo EM. De fato, as partes iterativas dos algoritmos são muito semelhantes. Para testar se o algoritmo EM é uma versão especial do Variational Bayes, tentei o seguinte: YYY são dados, é a coleção de variáveis latentes...
em quase todos os exemplos de código que eu já vi de um VAE, as funções de perda são definidas da seguinte forma (este é o código do tensorflow, mas eu já vi similar para theano, tocha etc.) Também é para uma convnet, mas também não é muito relevante , afeta apenas os eixos em que as somas são...
De acordo com esta e esta resposta, os auto-codificadores parecem ser uma técnica que utiliza redes neurais para redução de dimensão. Eu gostaria de saber adicionalmente o que é um autoencoder variacional (suas principais diferenças / benefícios em relação aos autoencoders "tradicionais") e também...
Entendo a estrutura básica do autoencoder variacional e do autoencoder normal (determinístico) e a matemática por trás deles, mas quando e por que eu preferiria um tipo de autoencoder ao outro? Tudo o que posso pensar é que a distribuição prévia de variáveis latentes do autoencoder variacional...
Estou estudando este tutorial sobre auto-codificadores variacionais de Carl Doersch . Na segunda página, afirma: Um dos frameworks mais populares é o Autoencoder Variacional [1, 3], o assunto deste tutorial. As suposições deste modelo são fracas e o treinamento é rápido via retropropagação. Os...
Por exemplo, em redes contraditórias generativas, geralmente ouvimos que a inferência é fácil porque a distribuição condicional de x dada a variável latente z é 'tratável'. Além disso, li em algum lugar que a máquina Boltzmann e o autoencoder variacional são usados onde a distribuição posterior...
Para meu entendimento (muito modesto) da inferência variacional, tenta-se aproximar uma distribuição desconhecida encontrando uma distribuição que otimiza o seguinte:pppqqq KL(p||q)=∑xp(x)logp(x)q(x)KL(p||q)=∑xp(x)logp(x)q(x)KL (p||q) = \sum\limits_{x} p(x)log \frac {p(x)}{q(x)} Sempre que...
Estou lendo sobre a inferência bayesiana e me deparei com a frase "a integração numérica da probabilidade marginal é muito cara" Eu não tenho formação em matemática e queria saber o que exatamente significa caro aqui? É apenas em termos de poder computacional ou há algo mais....
Estou implementando um VAE e notei duas implementações diferentes on-line da divergência simplificada univariada de KL gaussiana. A divergência original conforme aqui é Se assumirmos que nosso prior é uma unidade gaussiana, ou seja, e , isso simplifica para E aqui é onde está minha confusão....
Estou lendo Bayes variacionais e, pelo que entendi, tudo se resume à ideia de que você aproxima (onde são as variáveis latentes do seu modelo os dados observados) com uma função , assumindo que é como onde é um subconjunto das variáveis latentes. Pode-se então mostrar que o fator ótimo é: z x q...
Qual é a diferença entre Bayes variacionais de codificação automática e retropropagação estocástica para modelos geradores profundos ? A inferência nos dois métodos leva aos mesmos resultados? Não conheço nenhuma comparação explícita entre os dois métodos, apesar de ambos os grupos de autores se...
Estou tentando implementar o modelo de Mistura Gaussiana com inferência variacional estocástica, seguindo este artigo . Este é o pgm da mistura gaussiana. De acordo com o artigo, o algoritmo completo de inferência variacional estocástica é: E ainda estou muito confuso sobre o método para...
Um autoencoder variacional (VAE) fornece uma maneira de aprender a distribuição de probabilidade relacionando uma entrada à sua representação latente . Em particular, o codificador mapeia uma entrada para uma distribuição em . Um codificador típico produzirá parâmetros , representando a...
Estou trabalhando em um problema de inferência de alta dimensão (em torno de 2000 parâmetros do modelo) para o qual somos capazes de executar com precisão a estimativa de MAP encontrando o máximo global do log-posterior usando uma combinação de otimização baseada em gradiente e um algoritmo...
Depois de fazer algumas pesquisas sobre o tópico, notei um déficit surpreendente de pacotes de inferência e bibliotecas que dependem de métodos de passagem de mensagens ou otimização para Python e R. Que eu saiba, esses métodos são extremamente úteis. Por exemplo, apenas para uma propagação de...
Estou implementando uma mistura variada de baunilha de gaussianos multivariados, conforme o capítulo 10 do Reconhecimento de padrões e aprendizado de máquina (Bishop, 2007). A abordagem bayesiana requer a especificação de (hiper) parâmetros para o Gaussian-inverso-Wishart antes: α0 0α0\alpha_0...