Qual é a diferença entre um campo aleatório de Markov e um campo aleatório condicional?

19

Se eu fixar os valores dos nós observados de um MRF, ele se tornará um CRF?

alguém
fonte

Respostas:

11

Ok, eu mesmo encontrei a resposta:

Os campos aleatórios condicionais (CRFs) são um caso especial dos campos aleatórios de Markov (MRFs).

1.5.4 Campo aleatório condicional

Um campo aleatório condicional (CRF) é uma forma de MRF que define um posterior para as variáveis ​​x dados z, como no MRF oculto acima. Diferentemente do MRF oculto, no entanto, a fatoração na distribuição de dados P (x | z) e no P (x) anterior não é explicitada [288]. Isso permite que dependências complexas de x em z sejam gravadas diretamente na distribuição posterior, sem que a fatoração seja explicitada. (Dado P (x | z), tais fatorações sempre existem, no entanto - infinitamente muitas delas, de fato -, portanto não há sugestão de que a CRF seja mais geral que a MRF oculta, apenas que pode ser mais conveniente lidar com .)

Fonte: Blake, Kohli e Rother: campos aleatórios de Markov para processamento de visão e imagem. 2011.

Um campo aleatório condicional ou CRF (Lafferty et al. 2001), às vezes um campo aleatório discriminativo (Kumar e Hebert 2003), é apenas uma versão de um MRF onde todos os potenciais de clique estão condicionados aos recursos de entrada: [...]

A vantagem de um CRF sobre um MRF é análoga à vantagem de um classificador discriminativo sobre um classificador generativo (consulte a Seção 8.6), a saber, não precisamos “desperdiçar recursos” modelando coisas que sempre observamos. [...]

A desvantagem dos CRFs sobre os MRFs é que eles exigem dados de treinamento rotulados e são mais lentos para treinar [...]

Fonte: Kevin P. Murphy: Aprendizado de máquina: uma perspectiva probabilística

Respondendo a minha pergunta:

Se eu fixar os valores dos nós observados de um MRF, ele se tornará um CRF?

Sim. Fixar os valores é o mesmo que condicioná-los. No entanto, você deve observar que também existem diferenças no treinamento.

Assistindo a muitas palestras sobre PGM (modelos gráficos probabilísticos) na coursera me ajudou muito.

Martin Thoma
fonte
0

Redes MRF x Bayes : Falando de maneira imprecisa (mas normalmente) , existem dois tipos de modelos gráficos: modelos gráficos não direcionados e modelos direcionados (um mais tipo, por exemplo, gráfico de Tanner). A primeira também é conhecida como rede Markov Random Fields / Markov e a rede Bayes posterior / rede Bayesiana. (Às vezes, as premissas de independência em ambas podem ser representadas por gráficos de acordes)

Markov implica a maneira como fatoriza e campo aleatório significa uma distribuição específica entre as definidas por um modelo não direcionado.

CRF MRF : Quando algumas variáveis ​​são observadas, podemos usar a mesma representação gráfica não direcionada (como os gráficos não direcionados) e a parametrização para codificar uma distribuição condicional P(Y|X) que Y é um conjunto de variáveis ​​de destino e X é uma (disjunta ) conjunto de variáveis ​​observadas.

E a única diferença reside no fato de que para uma rede Markov padrão o termo de normalização soma mais de X e Y, mas para CRF o termo soma apenas Y.

Referência:

  1. Modelos gráficos não direcionados (campos aleatórios de Markov)
  2. Princípios e técnicas dos modelos gráficos probabilísticos (2009, The MIT Press)
  3. Campos aleatórios de Markov
Lerner Zhang
fonte
0

Vamos comparar a inferência condicional nos MRFs com a modelagem usando um CRF, estabelecendo as definições ao longo do caminho e, em seguida, abordar a questão original.

MRF

Um campo aleatório de Markov (MRF) em relação a um gráfico G é

  1. um conjunto de variáveis ​​aleatórias (ou "elementos" aleatórios, se desejar) correspondentes aos nós em G (portanto, um "campo aleatório")
  2. com uma distribuição conjunta que é Markov em relação aGViVjViVjBiP({Vi}) G

Inferência condicional sob um MRF

Como um MRF representa uma distribuição conjunta sobre muitas variáveis ​​que obedecem às restrições de Markov, podemos calcular distribuições de probabilidade condicional, considerando os valores observados de algumas variáveis.

Por exemplo, se eu tiver uma distribuição conjunta em quatro variáveis ​​aleatórias: IsRaining, SprinklerOn, SidewalkWet e GrassWet, na segunda-feira, talvez eu queira inferir a distribuição de probabilidade conjunta em IsRaining e SprinklerOn, pois observei SidewalkWet = False e GrassWet = Verdade. Na terça-feira, talvez eu queira inferir a distribuição de probabilidade conjunta sobre IsRaining e SprinklerOn, pois observei SidewalkWet = True e GrassWet = True.

Em outras palavras, podemos usar o mesmo modelo MRF para fazer inferências nessas duas situações diferentes, mas não diríamos que mudamos o modelo. De fato, embora tenhamos observado o SidewalkWet e o GrassWet nos dois casos descritos aqui, o próprio MRF não possui "variáveis ​​observadas" em si --- todas as variáveis ​​têm o mesmo status aos olhos do MRF, portanto, o MRF também modela, por exemplo, a distribuição conjunta do SidewalkWet e GrassWet.

CRF

G

  1. G{Xi}i=1n{Yi}i=1m
  2. com uma distribuição condicionalP({Yi}i=1m|{Xi}i=1n)G

A diferença

G

  1. designa um subconjunto de variáveis ​​como "observado"

  2. define apenas uma distribuição condicional em variáveis ​​não observadas, dadas as variáveis ​​observadas; não modela a probabilidade das variáveis ​​observadas (se as distribuições são expressas em termos de parâmetros, isso geralmente é visto como um benefício, pois os parâmetros não são desperdiçados na explicação da probabilidade de coisas que sempre serão conhecidas)

  3. G )

{Xi}GG{Yi}{Yi}{Xi}{Yi}{Xi}

Exemplo

YiX1,X2,...Xn1Xn

linear chain MRF: X_1, X_2, ..., X_n, Y_1, Y_2, ..., Y_m

G{Xi}{Yi}{Xi}

Conclusão

GGGGGG com parâmetros do MRF expressos como a saída de funções parametrizadas das variáveis ​​observadas, treinando os parâmetros de função para maximizar a probabilidade dos MRFs condicionais resultantes nos dados rotulados.

Além das economias potenciais de parâmetros do modelo, aumento da expressividade do modelo condicional e retenção da eficiência da inferência, um ponto importante final sobre a receita da CRF é que, para modelos discretos (e um grande subconjunto de modelos não discretos), apesar da expressividade da família CRF, a probabilidade logarítmica pode ser expressa como uma função convexa dos parâmetros da função, permitindo otimização global com descida gradiente.

Veja também: o documento original do crf e este tutorial

user3780389
fonte