Compreendendo a teoria da separação d em redes bayesianas causais

15

Estou tentando entender a lógica da separação d nas redes bayesianas causais. Eu sei como o algoritmo funciona, mas não entendo exatamente por que o "fluxo de informações" funciona como declarado no algoritmo.

insira a descrição da imagem aqui

Por exemplo, no gráfico acima, vamos pensar que recebemos apenas X e nenhuma outra variável foi observada. Então, de acordo com as regras da separação d, as informações fluem de X para D:

  1. X influencia A, que é . Tudo bem, já que A causa X e se sabemos do efeito X, isso afeta nossa crença sobre a causa A. Os fluxos de informação.P(A)P(A|X)

  2. X influencia B, que é . Tudo bem, já que A foi modificado por nosso conhecimento sobre X, a alteração em A também pode influenciar nossas crenças sobre sua causa, B.P(B)P(B|X)

  3. X influencia C, que é P(C)P(C|X) . Isso é bom porque sabemos que B é influenciado por nosso conhecimento sobre seu efeito indireto, X, e como B é influenciado por X, isso influenciará todos os efeitos diretos e indiretos de B. C é um efeito direto de B e é influenciado pelo nosso conhecimento sobre X.

Bem, até este ponto, tudo está bem para mim, pois o fluxo de informações ocorre de acordo com relacionamentos intuitivos de causa-efeito. Mas não entendo o comportamento especial das chamadas "estruturas em V" ou "colisores" neste esquema. De acordo com a teoria da separação d, B e D são as causas comuns de C no gráfico acima e diz que, se não observarmos C ou nenhum de seus descendentes, as informações de fluxo de X serão bloqueadas em C. Bem, OK , mas minha pergunta é por quê?

Das três etapas acima, iniciadas em X, vimos que C é influenciado por nosso conhecimento sobre X e o fluxo de informações ocorreu de acordo com a relação causa-efeito. A teoria da separação d diz que não podemos ir de C para D, pois C não é observado. Mas acho que, como sabemos que C é enviesado e D é uma causa de C, D também deve ser afetado, enquanto a teoria diz o contrário. Estou claramente sentindo falta de algo no meu padrão de pensamento, mas não consigo ver o que é.

Então, eu preciso de uma explicação de por que o fluxo de informações bloqueado em C, se C não for observado.

Ufuk Can Bicici
fonte
Não flui de X para D, se apenas X for observado. Você afirma logo abaixo da imagem. (Embora você o descreva corretamente mais abaixo).
Ziggystar # 30/13
Eu já sei disso, que o fluxo de informações está bloqueado em C, onde temos uma "estrutura em V". O que eu quero saber é o porquê; por que uma estrutura em V bloqueia o fluxo de informações quando não observamos C, do ponto de vista da relação de causa e efeito.
Ufuk Can Bicici

Respostas:

6

Não é intuitivo que você não possa raciocinar de causa em efeito não observado para outra causa? Se a chuva (B) e o aspersor (D) são causas do solo úmido (C), então você pode argumentar que ver a chuva implica que o solo provavelmente está úmido e continua a pensar que o aspersor deve estar ligado desde o solo está molhado?! Claro que não. Você argumentou que o chão estava molhado por causa da chuva - você não pode procurar outras causas!

Se você observar o chão molhado, é claro que a situação muda. Agora você pode raciocinar de uma causa para outra, como Frank explica.

Neil G
fonte
4

Vamos esquecer X por um momento e considerar apenas o colisor de B, C e D. A razão pela qual a estrutura v pode bloquear o caminho entre B e D é que, em geral, se você tiver duas variáveis ​​aleatórias independentes (B e D) que afetam o mesmo resultado (C); conhecer o resultado pode permitir que você tire conclusões sobre o relacionamento entre as variáveis ​​aleatórias, permitindo assim o fluxo de informações.

P(B|D)P(B)P(D|B)P(D)) Portanto, saber que o gramado está molhado desbloqueia o caminho e torna B e D dependentes.

Para entender isso melhor, pode ser útil dar uma olhada no Paradox de Berkson , que descreve a mesma situação.

FrankD
fonte
1) Tenho dificuldade de entender o que é uma causa independente antes de definir algo sobre a D-Separação. Muitos autores definem a separação D usando relações intuitivas de causa-efeito. Tento construir um sistema de raciocínio baseado no que estou lendo de diferentes fontes e nas minhas intuições, para que eu possa chegar a um acordo com esse teorema. É como se segue: "Se nenhuma variável for observada além de X, o conhecimento sobre X poderá influenciar os efeitos de X (todos os descendentes), as causas diretas ou indiretas de X (ancestrais) e todos os outros efeitos das causas de X".
Ufuk Can Bicici
2) Justifico esse pensamento da seguinte maneira: A) X pode influenciar seus efeitos diretos e indiretos, obviamente, uma vez que valores diferentes de X geram causas diferentes. B) X pode influenciar suas causas diretas e indiretas, pois, se observarmos um efeito, podemos obter novas informações sobre as causas, em uma abordagem diagnóstica. C) X influencia os outros efeitos (excluindo a si próprio) de todas as suas causas diretas e indiretas, uma vez que o conhecimento sobre X mudou nossas crenças sobre essas causas que, por sua vez, afetam todos os efeitos. Tento interpretar essas redes bayesianas causais com esse padrão. Isso é correto para começar?
Ufuk Can Bicici
3) É como se eu estivesse tentando formar um padrão intuitivo de "fluxo de informações" para entender os comportamentos de independência-dependência das variáveis. Com esse padrão, não consigo ver o que é uma causa independente e é aqui que estou preso. Claramente sinto falta de algo ou posso estar totalmente errado com esse padrão de pensamento.
Ufuk Can Bicici
Acho que minha resposta original foi um pouco enganadora, porque me referi a B e D como 'causas' (corrigidas agora). O fluxo de informações é um conceito vinculado a observações, não a intervenções causais. Como você sabe, duas variáveis ​​aleatórias são independentes se a observação de uma não fornecer informações sobre a segunda. Suas declarações parecem confundir observação e inferência. A observação de X nos permite ajustar nossa inferência de seus pais (afirmação A) e suas causas diretas, mas se uma estrutura em V está bloqueando o caminho, não podemos ajustar a inferência por causas indiretas, pelas razões descritas acima.
FrankD
1

Bem, até este ponto, está tudo bem para mim, pois o fluxo de informações ocorre de acordo com relacionamentos intuitivos de causa-efeito. Mas não entendo o comportamento especial das chamadas "estruturas em V" ou "colisores" nesse esquema.

Então a porca dura para quebrar aqui é a estrutura em v. Gostaria de ilustrar a diferença entre a probabilidade de uma variável S condicionada apenas à observação do efeito e a influência da observação de outra variável D, independente de S na mesma situação, usando um exemplo fictício.

Digamos que alguém esteja fazendo um curso, digamos álgebra linear. Se ele pode passar, depende principalmente da dificuldade do exame. Vamos denotar o evento de passar no curso por P, passando como 1 e 0 caso contrário; e a dificuldade do exame como D, difícil como 1 e fácil como 0. E algo sem sentido também pode influenciar seu desempenho ou o resultado, digamos que a singularidade aconteça e ele faça uma lavagem cerebral por uma máquina e decida não faça o exame. Denotamos esse evento por S, e sua probabilidade é 0,0001. Isso parece impossível, mas, por definição, sua chance não deve ser zero.

Portanto, temos agora um gráfico da forma de estrutura em V:

 D   S
  | |
 \| |/ 
   P  

Se sabemos que se a sigularidade vier, o aluno não fará o exame: P(¬P|S)=0.999999 e P(P|S)=0,000001, não importa quão fácil o exame seria. E as probabilidades anteriores são as seguintes:

| d0   | d1      |      
|:-----|--------:|   
| 0.5  | 0.5     |  

| s0     | s1      |      
|:-------|--------:|   
| 0.9999 | 0.0001  |

| S     | D    | P(p0|S,D) | P(p1|S,D) |  
|:------|-----:|----------:|----------:|
|s0     | d0   |   0.20    |   0.80    |
|s0     | d1   |   0.90    |   0.10    |
|s1     | d0   |   0.999999|   0.000001|
|s1     | d1   |   0.999999|   0.000001| 

Para verificar se S e D são independentes ou não recebem P, devemos elaborar duas distribuições (veja as duas primeiras equações na wikipedia: Independência Condicional ):P(S|P) e P(S|P,D). Se são iguais, podemos dizer que a independência condicional se mantém, caso contrário, não.

1) Se não soubermos o resultado, podemos calcular a probabilidade da singularidade acontecer, dado que o curso é fácil.

P(S|¬D)=P(S,P|¬D)+P(S,¬P|¬D)=P(S=1,P=1,D=0)P(D=0)+P(S=1,P=0,D=0)P(D=0)=P(S=1)P(D=0|S=1)P(P=1|D=0,S=1)P(D=0)+P(S=1)P(D=0|S=1)P(P=0|D=0,S=1)P(D=0)=P(S=1)P(D=0|S=1)P(D=0)=P(S=1)P(D=0)P(D=0)=P(S=1)=0.0001

As you can see above that doesn't matter if the exam is passed or not. What comes as it should come. It can be seen as a marginal probability over P.

And we can also work out the probability the the singularity happens given that the student doesn't pass the exam:

P(S,|¬P)=P(S,¬P)P(¬P)=P(S,¬p,D)+P(S,¬P,¬D)P(¬P)=P(¬P|S,D)P(S)P(D)+P(¬P|S,¬D)P(S)P(¬D)S,DP(¬P|S,D)P(S)P(D)=0.0001818

Knowing that the guy doesn't pass the exam we can guess that he may be brainwashed by a machine is 0.0001818 which is a little bigger than when we don't know it.

2) But what if we know that the guy failed the exam and the exam is easy?

P(S,|¬P,¬D)=P(S=1,P=0,D=0)P(P=0,D=0)=P(P=0|S=1,D=0)P(S=1)P(D=0)P(P=0|S=1,D=0)P(S=1)P(D=0)+P(P=0|S=0,D=0)P(S=0)P(D=0)=0.999999×0.0001×0.50.2×0.9999×0.5+0.999999×0.0001×0.5=0.0004998

Lo and behold, the change is much bigger than we just know he doesn't plass the exam. Then we see that P(S|P)P(S|P,D) we can infer that SD|PI(P(P,S,D)) which means D can influence S via P.

May this detailed derivation be of hlep.

Lerner Zhang
fonte