Estou lutando para fazer a conexão matemática entre uma rede neural e um modelo gráfico.
Nos modelos gráficos, a ideia é simples: a distribuição de probabilidade é fatorada de acordo com as cliques no gráfico, com os potenciais sendo geralmente da família exponencial.
Existe um raciocínio equivalente para uma rede neural? Pode-se expressar a distribuição de probabilidade sobre as unidades (variáveis) em uma máquina de Boltzmann restrita ou em uma CNN em função de sua energia ou do produto das energias entre as unidades?
Além disso, a distribuição de probabilidade é modelada por uma rede de crenças RBM ou Deep (por exemplo, com CNNs) da família exponencial?
Espero encontrar um texto que formalize a conexão entre esses tipos modernos de redes neurais e estatísticas da mesma maneira que Jordan & Wainwright fizeram para modelos gráficos com seus Modelos Gráficos, Famílias Exponenciais e Inferência Variacional . Qualquer ponteiro seria ótimo.
fonte
"using deep nets as factors in an MRF"
), mas mais sobre como olhar para uma rede profunda como um gráfico fatorial probabilístico. Quando Yann LeCun diz"of course deep Boltzmann Machines are a form of probabilistic factor graph themselves"
, estou interessado em ver essa conexão matematicamente.https://distill.pub/2017/feature-visualization/
( como as redes neurais constroem sua compreensão das imagens ), em que uma imagem complexa possui objetos componentes representados por nós da camada oculta. Os pesos podem 'alterar' a 'topologia' de maneira não discreta. Embora eu não tenha visto isso, alguns métodos podem incluir fatores de retração para remover bordas e, portanto, mudar a topologia originaisRespostas:
Outra boa introdução sobre o assunto é o curso CSC321 da Universidade de Toronto e o curso neuralnets-2012-001 sobre Coursera, ambos ministrados por Geoffrey Hinton.
Do vídeo nas redes de crenças:
Modelos gráficos
Os primeiros modelos gráficos usavam especialistas para definir a estrutura gráfica e as probabilidades condicionais. Os gráficos eram escassamente conectados, e o foco era realizar a inferência correta, e não o aprendizado (o conhecimento veio dos especialistas).
Redes neurais
Para redes neurais, o aprendizado era central. A conexão difícil do conhecimento não foi legal (OK, talvez um pouco). O aprendizado veio do aprendizado dos dados de treinamento, não de especialistas. As redes neurais não buscavam a interpretabilidade da conectividade esparsa para facilitar a inferência. No entanto, existem versões de redes neurais de redes de crenças.
Meu entendimento é que as redes de crenças geralmente são muito densamente conectadas e suas panelinhas são grandes demais para serem interpretáveis. As redes de crenças usam a função sigmóide para integrar entradas, enquanto os modelos gráficos contínuos geralmente usam a função gaussiana. O sigmóide facilita o treinamento da rede, mas é mais difícil de interpretar em termos de probabilidade. Eu acredito que ambos estão na família exponencial.
Estou longe de ser um especialista nisso, mas as notas e os vídeos das palestras são um ótimo recurso.
fonte
Radford Neal fez um bom trabalho nessa área que pode lhe interessar, incluindo algum trabalho direto na comparação de modelos gráficos bayesianos com redes neurais. (Sua dissertação foi aparentemente sobre esse tópico específico.)
Não estou familiarizado o suficiente com este trabalho para fornecer um resumo inteligente, mas queria fornecer o ponteiro para o caso de você achar útil.
fonte
Pode ser um tópico antigo, mas ainda é uma pergunta relevante.
O exemplo mais proeminente das conexões entre Redes Neurais (NN) e Modelos Gráficos Probabilísticos (PGM) é o entre Máquinas Boltzmann (e suas variações como BM Restrito, BM Profundo etc) e PGMs não direcionados do Markov Random Field.
Da mesma forma, as Redes de Crenças (e suas variações como Deep BN etc.) são um tipo de PGMs direcionados de gráficos bayesianos
Para mais, consulte:
fonte