Diferença entre redes bayesianas e processo de Markov?

28

Qual é a diferença entre uma rede bayesiana e um processo de Markov?

Acreditava entender os princípios de ambos, mas agora, quando preciso comparar os dois, sinto-me perdido. Eles significam quase o mesmo para mim. Certamente não são.

Links para outros recursos também são apreciados.

estrela do rock
fonte
Lembro que alguém me disse neste site que as redes bayesianas não exigem necessariamente inferência bayesiana. Seus nomes vêm do domínio Bayes.
Tim

Respostas:

21

Um modelo gráfico probabilístico (PGM) é um formalismo gráfico para modelar compactamente distribuições de probabilidade conjuntas e (in) relações de dependência sobre um conjunto de variáveis ​​aleatórias. Um PGM é chamado de rede bayesiana quando o gráfico subjacente é direcionado e um campo aleatório de rede / Markov de Markovquando o gráfico subjacente não for direcionado. De um modo geral, você usa o primeiro para modelar a influência probabilística entre variáveis ​​que têm uma direcionalidade clara, caso contrário, o último; nas duas versões dos PGMs, a falta de arestas nos gráficos associados representa independências condicionais nas distribuições codificadas, embora sua semântica exata seja diferente. O "Markov" em "Rede Markov" refere-se a uma noção genérica de independência condicional codificada por PGMs, a de um conjunto de variáveis ​​aleatórias xA sendo independente de outras xC dado um conjunto de variáveis ​​"importantes" xB (o nome técnico é um cobertor de Markov ), ou seja,p(xA|xB,xC)=p(xA|xB) .

{Xt}X1,X2,X3,...p(xt+1|xt,xt1,...,x1)=p(xt+1|xt)A={t+1},B={t}C{t1,t2,...,1}p(xA|xB,xC)=p(xA|xB)Xt+1Xt

Portanto, você pode representar um processo de Markov com uma rede bayesiana , como uma cadeia linear indexada pelo tempo (por simplicidade, consideramos apenas o caso de tempo / estado discretos aqui; figura do livro PRML de Bishop): insira a descrição da imagem aqui Esse tipo de rede bayesiana é conhecido como rede bayesiana dinâmica . Como se trata de uma rede bayesiana (daí um PGM), pode-se aplicar algoritmos PGM padrão para inferência probabilística (como o algoritmo soma-produto, do qual as equações de Chapman-Kolmogorov representam um caso especial) e estimativa de parâmetros (por exemplo, probabilidade máxima, que ferve até contagem simples) ao longo da cadeia. Exemplos de aplicações disso são o modelo de linguagem HMM e n-grama.

Muitas vezes, você vê um diagrama representando uma cadeia de Markov como estainsira a descrição da imagem aqui

p(Xt|Xt1)Xt(Xt(1),...Xt(D))p(Xt(1),...Xt(D)|Xt1(1),...Xt1(D))

Xttp(xt+1|xt,xt1,...,x1)=p(xt+1|xt)

Yibo Yang
fonte
17

Primeiro, algumas palavras sobre os processos de Markov. Existem quatro sabores distintos desse animal, dependendo do espaço de estado (discreto / contínuo) e da variável de tempo (discreto / contínuo). A idéia geral de qualquer processo de Markov é que "dado o presente, o futuro é independente do passado".

O processo mais simples de Markov, é um espaço discreto e finito, e uma cadeia de Markov de tempo discreto. Você pode visualizá-lo como um conjunto de nós, com arestas direcionadas entre eles. O gráfico pode ter ciclos e até loops. Em cada extremidade, você pode escrever um número entre 0 e 1, de maneira que, para cada nó, os números nas arestas que saem desse nó sejam somados a 1.

Agora imagine um processo a seguir: você começa em um determinado estado A. A cada segundo, você escolhe aleatoriamente uma aresta de saída do estado em que está atualmente, com probabilidade de escolher essa aresta igual ao número dessa aresta. Dessa forma, você gera aleatoriamente uma sequência de estados.

Uma visualização muito legal desse processo pode ser encontrada aqui: http://setosa.io/blog/2014/07/26/markov-chains/

A mensagem principal é que uma representação gráfica de um processo de Markov com espaço discreto e com espaço discreto é um gráfico geral, que representa uma distribuição nas seqüências de nós do gráfico (dado um nó inicial ou uma distribuição inicial nos nós).

Por outro lado, uma rede bayesiana é um DAG ( gráfico acíclico direcionado ) que representa uma fatoração de alguma distribuição de probabilidade conjunta. Geralmente essa representação tenta levar em consideração a independência condicional entre algumas variáveis, simplificar o gráfico e diminuir o número de parâmetros necessários para estimar a distribuição de probabilidade conjunta.

sjm.majewski
fonte
3

Enquanto procurava uma resposta para a mesma pergunta, me deparei com essas respostas. Mas nenhum deles esclarece o tópico. Quando encontrei boas explicações, quis compartilhar com pessoas que pensavam como eu.

No livro "Raciocínio probabilístico em sistemas inteligentes: redes de inferência plausível", escrito por Judea Pearl, capítulo 3: Redes Markov e Bayesiana: duas representações gráficas do conhecimento probabilístico, p.116:

A principal fraqueza das redes de Markov é a incapacidade de representar dependências induzidas e não transitivas; duas variáveis ​​independentes serão conectadas diretamente por uma aresta, apenas porque alguma outra variável depende de ambas. Como resultado, muitas independências úteis não são representadas na rede. Para superar essa deficiência, as redes bayesianas usam a linguagem mais rica dos gráficos direcionados , onde as direções das setas nos permitem distinguir dependências genuínas das dependências espúrias induzidas por observações hipotéticas.

Vezir
fonte
1

Um processo de Markov é um processo estocástico com a propriedade Markoviana (quando o índice é o momento, a propriedade Markoviana é uma independência condicional especial, que diz que o presente, o passado e o futuro são independentes).

Uma rede bayesiana é um modelo gráfico direcionado. (Um campo aleatório de Markov é um modelo gráfico não direcionado.) Um modelo gráfico captura a independência condicional, que pode ser diferente da propriedade Markoviana.

Não estou familiarizado com modelos gráficos, mas acho que um modelo gráfico pode ser visto como um processo estocástico.

Tim
fonte
1

A idéia geral de qualquer processo de Markov é que "dado o presente, o futuro é independente do passado".

-A idéia geral de qualquer método bayesiano é que "dado o anterior, o futuro é independente do passado", seus parâmetros, se indexados por observações, seguirão um processo de Markov

MAIS

"tudo a seguir será o mesmo em como atualizo minhas crenças

  • você me dá novas informações A, então você me dá novas informações B,
  • você me fornece novas informações B e depois novas informações A
  • você me dá A e B juntos "

Portanto, seus parâmetros serão realmente um processo de Markov indexado por tempo, e não por observações

Nicolas
fonte