Modelar matematicamente redes neurais como modelos gráficos

11

Estou lutando para fazer a conexão matemática entre uma rede neural e um modelo gráfico.

Nos modelos gráficos, a ideia é simples: a distribuição de probabilidade é fatorada de acordo com as cliques no gráfico, com os potenciais sendo geralmente da família exponencial.

Existe um raciocínio equivalente para uma rede neural? Pode-se expressar a distribuição de probabilidade sobre as unidades (variáveis) em uma máquina de Boltzmann restrita ou em uma CNN em função de sua energia ou do produto das energias entre as unidades?

Além disso, a distribuição de probabilidade é modelada por uma rede de crenças RBM ou Deep (por exemplo, com CNNs) da família exponencial?

Espero encontrar um texto que formalize a conexão entre esses tipos modernos de redes neurais e estatísticas da mesma maneira que Jordan & Wainwright fizeram para modelos gráficos com seus Modelos Gráficos, Famílias Exponenciais e Inferência Variacional . Qualquer ponteiro seria ótimo.

Amelio Vazquez-Reina
fonte
1
MI (haters) O principal problema aqui é que as redes neurais não são realmente redes; eles praticamente têm uma topologia fixa e, portanto, têm uma chance menor de armazenar qualquer informação dentro dela.
Você viu este post recente ?
Jerad
@jerad Obrigado, eu não tinha lido esse post. Minha pergunta não é tanto sobre como combinar esses modelos (por exemplo, quando Yann diz "using deep nets as factors in an MRF"), mas mais sobre como olhar para uma rede profunda como um gráfico fatorial probabilístico. Quando Yann LeCun diz "of course deep Boltzmann Machines are a form of probabilistic factor graph themselves", estou interessado em ver essa conexão matematicamente.
Amelio Vazquez-Reina
@mbq, vimos algumas formas de armazenamento de informações de componentes da camada oculta, por exemplo https://distill.pub/2017/feature-visualization/( como as redes neurais constroem sua compreensão das imagens ), em que uma imagem complexa possui objetos componentes representados por nós da camada oculta. Os pesos podem 'alterar' a 'topologia' de maneira não discreta. Embora eu não tenha visto isso, alguns métodos podem incluir fatores de retração para remover bordas e, portanto, mudar a topologia originais
Vass

Respostas:

6

Outra boa introdução sobre o assunto é o curso CSC321 da Universidade de Toronto e o curso neuralnets-2012-001 sobre Coursera, ambos ministrados por Geoffrey Hinton.

Do vídeo nas redes de crenças:

Modelos gráficos

Os primeiros modelos gráficos usavam especialistas para definir a estrutura gráfica e as probabilidades condicionais. Os gráficos eram escassamente conectados, e o foco era realizar a inferência correta, e não o aprendizado (o conhecimento veio dos especialistas).

Redes neurais

Para redes neurais, o aprendizado era central. A conexão difícil do conhecimento não foi legal (OK, talvez um pouco). O aprendizado veio do aprendizado dos dados de treinamento, não de especialistas. As redes neurais não buscavam a interpretabilidade da conectividade esparsa para facilitar a inferência. No entanto, existem versões de redes neurais de redes de crenças.


Meu entendimento é que as redes de crenças geralmente são muito densamente conectadas e suas panelinhas são grandes demais para serem interpretáveis. As redes de crenças usam a função sigmóide para integrar entradas, enquanto os modelos gráficos contínuos geralmente usam a função gaussiana. O sigmóide facilita o treinamento da rede, mas é mais difícil de interpretar em termos de probabilidade. Eu acredito que ambos estão na família exponencial.

Estou longe de ser um especialista nisso, mas as notas e os vídeos das palestras são um ótimo recurso.

ostrokach
fonte
1
Bem vindo ao site. Estamos tentando construir um repositório permanente de informações estatísticas de alta qualidade na forma de perguntas e respostas. Portanto, temos receio de respostas somente para links, devido ao linkrot. Você pode postar uma citação completa e um resumo das informações no link, caso elas desapareçam?
gung - Restabelece Monica
Isso é muito legal. Obrigado por adicionar essas informações e bem-vindo ao CV.
gung - Restabelece Monica
Devo salientar que as informações na primeira metade da sua resposta não são muito precisas, o que acho que está implícito no uso de "modelos gráficos iniciais" (deve ser "muito muito cedo"). Por muito tempo, modelos gráficos foram usados ​​para aprender todos os aspectos de sua arquitetura da mesma maneira que as redes neurais. Mas sua sugestão posterior sobre sigmóides substituindo gaussianos em gráficos de fatores é interessante!
gusuku
4

Radford Neal fez um bom trabalho nessa área que pode lhe interessar, incluindo algum trabalho direto na comparação de modelos gráficos bayesianos com redes neurais. (Sua dissertação foi aparentemente sobre esse tópico específico.)

Não estou familiarizado o suficiente com este trabalho para fornecer um resumo inteligente, mas queria fornecer o ponteiro para o caso de você achar útil.

lmjohns3
fonte
Pelo que entendi nos trabalhos de Neal, Mackay , etc., eles estão usando a Otimização Bayesiana, onde os parâmetros para otimizar são os pesos e vieses neurais, até mostrando que a normalização L2 das redes neurais pode ser vista como um gaussiano antes do pesos. Esse programa continuou a incluir o número de camadas ocultas, neurônios dentro de cada camada etc. entre as variáveis ​​de otimização.
gusuku
Mas isso é diferente do que o OP pediu, porque projetar a arquitetura da rede neural para testar na próxima execução é apenas um caso especial de design experimental usando modelos bayesianos como um mecanismo de hiper-design. Penso que o OP pediu um mapeamento entre redes neurais e modelagem bayesiana, no "mesmo nível".
gusuku
4

Pode ser um tópico antigo, mas ainda é uma pergunta relevante.

O exemplo mais proeminente das conexões entre Redes Neurais (NN) e Modelos Gráficos Probabilísticos (PGM) é o entre Máquinas Boltzmann (e suas variações como BM Restrito, BM Profundo etc) e PGMs não direcionados do Markov Random Field.

Da mesma forma, as Redes de Crenças (e suas variações como Deep BN etc.) são um tipo de PGMs direcionados de gráficos bayesianos

Para mais, consulte:

  1. Yann Lecun, " Um tutorial sobre aprendizagem baseada em energia " (2006)
  2. Yoshua Bengio, Ian Goodfellow e Aaron Courville, "Deep Learning", cap. 16 e 20 (livro em preparação, no momento da redação deste texto)
GuSuku
fonte