Estou estudando a RBM (Restricted Boltzmann Machine) e estou tendo alguns problemas para entender os cálculos de probabilidade de log com relação aos parâmetros da RBM. Embora muitos trabalhos de pesquisa sobre RBM tenham sido publicados, não há etapas detalhadas dos derivativos. Depois de pesquisar online, consegui encontrá-los neste documento:
- Fischer, A. & Igel, C. (2012). Uma introdução às máquinas restritas de Boltzmann. Em L. Alvarez et al. (Eds.): CIARP, LNCS 7441, pp. 14–36, Springer-Verlag: Berlin-Heidelberg. ( pdf )
No entanto, os detalhes deste documento são muito avançados para mim. Alguém pode me indicar um bom tutorial / conjunto de notas de aula sobre RBM?
Edit: @ David, a seção confusa é mostrada abaixo (equação 29 na página 26):
references
rbm
Upul
fonte
fonte
Respostas:
Eu sei que é um pouco tarde, mas talvez ajude. Para obter o primeiro termo da sua equação, siga estas etapas: Assumimos que a independência condicional entre os existem unidades ocultas, dadas as unidades visíveis. Assim, podemos fatorar a distribuição condicional de probabilidade conjunta para os estados ocultos.
fonte
Existe um tutorial decente de RBMs no site deeplearning .
Esta postagem no blog ( Introdução às máquinas restritas de Boltzmann ) foi escrita em linguagem mais simples e explica muito bem o básico do RBMS:
Além disso, talvez a melhor referência seja o curso de Redes Neurais de Geoff Hinton sobre Coursea:
Não tenho certeza se você pode acessar a turma e os vídeos após o término da aula.
fonte
A caixa laranja esquerda fornece o valor esperado do gradiente de energia em todas as configurações ocultas, uma vez que algum vetor visível é fixado nas unidades visíveis (a expectativa sobre os dados, pois ele usa uma amostra do seu conjunto de treinamento). O termo em si é o produto de (1) a probabilidade de ver uma unidade oculta específica, dado que algum vetor v está preso nas unidades visíveis e (2) o estado de uma unidade visível j.
A caixa laranja direita é a mesma que a esquerda, exceto que você está fazendo o que está na caixa laranja esquerda para todas as configurações visíveis possíveis, em vez da que está presa nas unidades visíveis (a expectativa sobre o modelo, pois nada está preso nas unidades visíveis).
fonte
O capítulo 5 do curso de aprendizado de máquina de Hugo Larochelle ( vídeo ) é a melhor introdução que eu encontrei até agora.
A derivada da função de perda não é derivada nessas palestras, mas não é difícil de fazer (posso postar uma varredura dos meus cálculos, se necessário, mas na verdade não é tão difícil). Ainda estou procurando um bom livro sobre este tópico, mas principalmente existem apenas artigos. Há uma boa visão geral dos artigos no capítulo 20 do Deep Learning Book de Bengio .
fonte