Estou tentando entender a lógica da separação d nas redes bayesianas causais. Eu sei como o algoritmo funciona, mas não entendo exatamente por que o "fluxo de informações" funciona como declarado no algoritmo.
Por exemplo, no gráfico acima, vamos pensar que recebemos apenas X e nenhuma outra variável foi observada. Então, de acordo com as regras da separação d, as informações fluem de X para D:
X influencia A, que é . Tudo bem, já que A causa X e se sabemos do efeito X, isso afeta nossa crença sobre a causa A. Os fluxos de informação.
X influencia B, que é . Tudo bem, já que A foi modificado por nosso conhecimento sobre X, a alteração em A também pode influenciar nossas crenças sobre sua causa, B.
X influencia C, que é . Isso é bom porque sabemos que B é influenciado por nosso conhecimento sobre seu efeito indireto, X, e como B é influenciado por X, isso influenciará todos os efeitos diretos e indiretos de B. C é um efeito direto de B e é influenciado pelo nosso conhecimento sobre X.
Bem, até este ponto, tudo está bem para mim, pois o fluxo de informações ocorre de acordo com relacionamentos intuitivos de causa-efeito. Mas não entendo o comportamento especial das chamadas "estruturas em V" ou "colisores" neste esquema. De acordo com a teoria da separação d, B e D são as causas comuns de C no gráfico acima e diz que, se não observarmos C ou nenhum de seus descendentes, as informações de fluxo de X serão bloqueadas em C. Bem, OK , mas minha pergunta é por quê?
Das três etapas acima, iniciadas em X, vimos que C é influenciado por nosso conhecimento sobre X e o fluxo de informações ocorreu de acordo com a relação causa-efeito. A teoria da separação d diz que não podemos ir de C para D, pois C não é observado. Mas acho que, como sabemos que C é enviesado e D é uma causa de C, D também deve ser afetado, enquanto a teoria diz o contrário. Estou claramente sentindo falta de algo no meu padrão de pensamento, mas não consigo ver o que é.
Então, eu preciso de uma explicação de por que o fluxo de informações bloqueado em C, se C não for observado.
fonte
Respostas:
Não é intuitivo que você não possa raciocinar de causa em efeito não observado para outra causa? Se a chuva (B) e o aspersor (D) são causas do solo úmido (C), então você pode argumentar que ver a chuva implica que o solo provavelmente está úmido e continua a pensar que o aspersor deve estar ligado desde o solo está molhado?! Claro que não. Você argumentou que o chão estava molhado por causa da chuva - você não pode procurar outras causas!
Se você observar o chão molhado, é claro que a situação muda. Agora você pode raciocinar de uma causa para outra, como Frank explica.
fonte
Vamos esquecer X por um momento e considerar apenas o colisor de B, C e D. A razão pela qual a estrutura v pode bloquear o caminho entre B e D é que, em geral, se você tiver duas variáveis aleatórias independentes (B e D) que afetam o mesmo resultado (C); conhecer o resultado pode permitir que você tire conclusões sobre o relacionamento entre as variáveis aleatórias, permitindo assim o fluxo de informações.
Para entender isso melhor, pode ser útil dar uma olhada no Paradox de Berkson , que descreve a mesma situação.
fonte
Então a porca dura para quebrar aqui é a estrutura em v. Gostaria de ilustrar a diferença entre a probabilidade de uma variável S condicionada apenas à observação do efeito e a influência da observação de outra variável D, independente de S na mesma situação, usando um exemplo fictício.
Digamos que alguém esteja fazendo um curso, digamos álgebra linear. Se ele pode passar, depende principalmente da dificuldade do exame. Vamos denotar o evento de passar no curso por P, passando como 1 e 0 caso contrário; e a dificuldade do exame como D, difícil como 1 e fácil como 0. E algo sem sentido também pode influenciar seu desempenho ou o resultado, digamos que a singularidade aconteça e ele faça uma lavagem cerebral por uma máquina e decida não faça o exame. Denotamos esse evento por S, e sua probabilidade é 0,0001. Isso parece impossível, mas, por definição, sua chance não deve ser zero.
Portanto, temos agora um gráfico da forma de estrutura em V:
Se sabemos que se a sigularidade vier, o aluno não fará o exame:P( ¬ P| S) = 0,999999 e P( P| S) = 0,000001 , não importa quão fácil o exame seria. E as probabilidades anteriores são as seguintes:
Para verificar se S e D são independentes ou não recebem P, devemos elaborar duas distribuições (veja as duas primeiras equações na wikipedia: Independência Condicional ):P( S| P) e P( S| P, D ) . Se são iguais, podemos dizer que a independência condicional se mantém, caso contrário, não.
1) Se não soubermos o resultado, podemos calcular a probabilidade da singularidade acontecer, dado que o curso é fácil.
As you can see above that doesn't matter if the exam is passed or not. What comes as it should come. It can be seen as a marginal probability over P.
And we can also work out the probability the the singularity happens given that the student doesn't pass the exam:
Knowing that the guy doesn't pass the exam we can guess that he may be brainwashed by a machine is 0.0001818 which is a little bigger than when we don't know it.
2) But what if we know that the guy failed the exam and the exam is easy?P(S,|¬P,¬D)=P(S=1,P=0,D=0)P(P=0,D=0)=P(P=0|S=1,D=0)P(S=1)P(D=0)P(P=0|S=1,D=0)P(S=1)P(D=0)+P(P=0|S=0,D=0)P(S=0)P(D=0)=0.999999×0.0001×0.50.2×0.9999×0.5+0.999999×0.0001×0.5=0.0004998
Lo and behold, the change is much bigger than we just know he doesn't plass the exam. Then we see thatP(S|P)≠P(S|P,D) we can infer that S⊥D|P∉I(P(P,S,D)) which means D can influence S via P.
May this detailed derivation be of hlep.
fonte