Atualmente, estou lendo a peça de Pearl (Pearl, 2009, 2ª edição) sobre causalidade e luta para estabelecer o elo entre a identificação não paramétrica de um modelo e a estimativa real. Infelizmente, o próprio Pearl não fala nada sobre esse assunto.
Para dar um exemplo, tenho um modelo simples em mente com um caminho causal, , e um fator de confusão que afeta todas as variáveis , e . Além disso, e estão relacionados por influências não observadas, . Pelas regras do cálculo, agora eu sei que a distribuição de probabilidade pós-intervenção (discreta) é dada por:
Eu sei como é que posso estimar essa quantidade (não parametricamente ou introduzindo suposições paramétricas)? Especialmente no caso em que é um conjunto de várias variáveis de confusão e as quantidades de interesse são contínuas. Estimar a distribuição conjunta pré-intervenção dos dados parece ser muito impraticável neste caso. Alguém conhece uma aplicação dos métodos de Pearl que lida com esses problemas? Eu ficaria muito feliz por um ponteiro.
Respostas:
Esta é uma pergunta muito boa. Primeiro, vamos verificar se sua fórmula está correta. As informações que você forneceu correspondem ao seguinte modelo causal:
E como você disse, podemos derivar a estimativa para usando as regras do do-calculus. Em R, podemos fazer isso facilmente com o pacote . Primeiro, carregamos para criar um objeto com o diagrama causal que você está propondo:P(Y|do(X))
causaleffect
igraph
Onde os dois primeiros termosX Y
X-+Y, Y-+X
representam os fatores de confusão não observados de e e o restante dos termos representam as arestas direcionadas que você mencionou.Então pedimos nossa estimativa:
O que de fato coincide com a sua fórmula - um caso de porta da frente com um fator de confusão observado.
Agora vamos para a parte de estimativa. Se você assume linearidade (e normalidade), as coisas são muito simplificadas. Basicamente o que você quer fazer é estimar os coeficientes do caminho .X→Z→Y
Vamos simular alguns dados:
Observe em nossa simulação que o verdadeiro efeito causal de uma mudança de em é 21. Você pode estimar isso executando duas regressões. Primeiro para obter o efeito de em e, em seguida, para obter o efeito de em . Sua estimativa será o produto de ambos os coeficientes:X Y Y∼Z+W+X Z Y Z∼X+W X Z
E, por inferência, você pode calcular o erro padrão (assintótico) do produto:
Que você pode usar para testes ou intervalos de confiança:
Você também pode realizar uma estimativa (não / semi) paramétrica, tentarei atualizar esta resposta, incluindo outros procedimentos posteriormente.
fonte