Como a causalidade é definida matematicamente?

16

Qual é a definição matemática de uma relação causal entre duas variáveis ​​aleatórias?

Dada uma amostra da distribuição conjunta de duas variáveis ​​aleatórias e , quando diríamos que causa ?XYXY

Para contextualizar, estou lendo este artigo sobre descoberta causal .

Jane
fonte
2
Até onde eu vejo, causalidade é um conceito científico, não matemático. Você pode editar para esclarecer?
Mdewey #
2
@mdewey Eu discordo. A causalidade pode ser sacada em termos inteiramente formais. Veja, por exemplo, minha resposta.
Kodiologist

Respostas:

9

Qual é a definição matemática de uma relação causal entre duas variáveis ​​aleatórias?

Matematicamente, um modelo causal consiste em relacionamentos funcionais entre variáveis. Por exemplo, considere o sistema de equações estruturais abaixo:

x=fx(ϵx)y=fy(x,ϵy)

Isso significa que x determina funcionalmente o valor de y (se você intervir em x isso altera os valores de y ), mas não o contrário. Graficamente, isso geralmente é representado por xy , o que significa que x entra na equação estrutural de y. Como adendo, você também pode expressar um modelo causal em termos de distribuições conjuntas de variáveis ​​contrafactuais, matematicamente equivalentes a modelos funcionais .

Dada uma amostra da distribuição conjunta de duas variáveis ​​aleatórias X e Y, quando diríamos que X causa Y?

Às vezes (ou na maioria das vezes) você não tem conhecimento sobre a forma das equações estruturais fx , fy , nem mesmo se xy ou yx . A única informação que você tem é a distribuição de probabilidade conjunta p(y,x) (ou amostras dessa distribuição).

Isso leva à sua pergunta: quando posso recuperar a direção da causalidade apenas a partir dos dados? Ou, mais precisamente, quando posso recuperar se x entra na equação estrutural de y ou vice-versa, apenas a partir dos dados?

Obviamente, sem suposições fundamentalmente não testáveis sobre o modelo causal, isso é impossível . O problema é que vários modelos causais diferentes podem implicar a mesma distribuição de probabilidade conjunta das variáveis ​​observadas. O exemplo mais comum é um sistema linear causal com ruído gaussiano.

Mas, sob algumas suposições causais, isso pode ser possível - e é nisso que a literatura de descoberta causal trabalha. Se você não tem exposição prévia a esse tópico, pode começar com Elements of Causal Inference de Peters, Janzing e Scholkopf, bem como no capítulo 2 de Causality de Judea Pearl. Temos um tópico aqui no CV para referências sobre descoberta causal , mas ainda não temos muitas referências listadas lá.

Portanto, não há apenas uma resposta para sua pergunta, pois depende das suposições feitas. O artigo que você menciona cita alguns exemplos, como assumir um modelo linear com ruído não gaussiano . Este caso é conhecido como LINGAN (abreviação de modelo acíclico não gaussiano linear), aqui está um exemplo em R:

library(pcalg)
set.seed(1234)
n <- 500
eps1 <- sign(rnorm(n)) * sqrt(abs(rnorm(n)))
eps2 <- runif(n) - 0.5
x2 <- 3 + eps2
x1 <- 0.9*x2 + 7 + eps1

# runs lingam
X <- cbind(x1, x2)
res <- lingam(X)
as(res, "amat") 

# Adjacency Matrix 'amat' (2 x 2) of type ‘pag’:
#     [,1]  [,2]
# [1,] .     .   
# [2,]  TRUE .     

Observe aqui que temos um modelo causal linear com ruído não gaussiano, em que x2 causa x1 e lingam recupera corretamente a direção causal. No entanto, observe que isso depende criticamente das suposições da LINGAM.

No caso do artigo que você cita, eles fazem essa suposição específica (veja o "postulado"):

Se xy , o comprimento mínimo da descrição do mecanismo de mapeamento de X para Y é independente do valor de X, enquanto o comprimento mínimo da descrição do mecanismo de mapeamento de Y para X depende do valor de Y.

Observe que isso é uma suposição. Isso é o que chamaríamos de "condição de identificação". Essencialmente, o postulado impõe restrições à distribuição conjunta p(x,y) . Ou seja, o postulado diz que se xy certas restrições se mantêm nos dados e se yx outras restrições se mantêm. Esses tipos de restrições que têm implicações testáveis ​​(impõem restrições a p(y,x) ) é o que permite a recuperação direcional de dados observacionais.

Como observação final, os resultados da descoberta causal ainda são muito limitados e, dependendo de fortes suposições, tome cuidado ao aplicá-los no contexto do mundo real.

Carlos Cinelli
fonte
1
Existe uma chance de você aumentar sua resposta de alguma forma incluir alguns exemplos simples com dados falsos, por favor? Por exemplo, depois de ler um pouco de Elements of Causal Inference e assistir a algumas das palestras de Peters, e uma estrutura de regressão é comumente usada para motivar a necessidade de entender o problema em detalhes (nem sequer estou abordando o trabalho do ICP). Tenho a impressão (talvez equivocada) de que, em seu esforço para se afastar do RCM, suas respostas deixam de fora todo o mecanismo de modelagem tangível real.
usεr11852 diz Reinstate Monic
1
@ usεr11852 Não sei se entendi o contexto de suas perguntas. Deseja exemplos de descoberta causal? Existem vários exemplos no próprio artigo que Jane forneceu. Além disso, não sei se entendi o que você quer dizer com "evitando o RCM e deixando de fora as máquinas de modelagem tangíveis reais", que máquinas tangíveis estamos perdendo no contexto da descoberta causal aqui?
Carlos Cinelli
1
Desculpas pela confusão, eu não me importo com exemplos de documentos. Eu mesmo posso citar outros papéis. (Por exemplo, Lopez-Paz et al. CVPR 2017 sobre o coeficiente de causa neural) O que importa é um exemplo numérico simples com dados falsos que alguém executa em R (ou no seu idioma favorito) e entende o que você quer dizer. Se você citar, por exemplo, Peters 'et al. book e eles têm pequenos trechos de código que são extremamente úteis (e ocasionalmente usam apenas lm). Não podemos todos contornar as amostras observacionais dos conjuntos de dados Tuebingen para ter uma idéia da descoberta causal! :)
usεr11852 diz Reinstate Monic
1
@ usεr11852 claro, incluindo um exemplo falso é trivial, posso incluir um usando o lingam em R. Mas você gostaria de explicar o que quis dizer com "evitando o RCM e deixando de fora as máquinas de modelagem tangíveis reais"?
Carlos Cinelli
2
@ usεr11852 ok obrigado pelo feedback, tentarei incluir mais código quando apropriado. Como observação final, os resultados da descoberta causal ainda são muito limitados; portanto, as pessoas precisam ter muito cuidado ao aplicá-las, dependendo do contexto.
Carlos Cinelli
4

Há uma variedade de abordagens para formalizar a causalidade (que está de acordo com uma discordância filosófica substancial sobre a causalidade que existe há séculos). Um popular é em termos de resultados potenciais. A abordagem dos resultados potenciais, chamada modelo causal de Rubin , supõe que, para cada estado causal, haja uma variável aleatória diferente. Portanto, Y1 pode ser a variável aleatória de possíveis resultados de um ensaio clínico se um indivíduo tomar o medicamento do estudo e Y2 pode ser a variável aleatória se ele tomar o placebo. O efeito causal é a diferença entre Y1 e Y2 . Se de fato Y1=Y2 , poderíamos dizer que o tratamento não tem efeito. Caso contrário, poderíamos dizer que a condição de tratamento causa o resultado.

As relações causais entre variáveis ​​também podem ser representadas com gráficos acílicos direcionais , que têm um sabor muito diferente, mas acabam sendo matematicamente equivalentes ao modelo de Rubin (Wasserman, 2004, seção 17.8).

Wasserman, L. (2004). Todas as estatísticas: um curso conciso de inferência estatística . Nova York, NY: Springer. ISBN 978-0-387-40272-7.

Kodiologist
fonte
obrigado. o que seria um teste para ele, dado um conjunto de amostras da distribuição conjunta?
214 Jane
3
Estou lendo arxiv.org/abs/1804.04622 . Eu não li suas referências. Estou tentando entender o que se entende por causalidade, com base em dados observacionais.
11778 Jane
1
Lamento (-1), este não é o que está sendo solicitado, você não observar ou Y 2 , você observa uma amostra de variáveis factuais X , Y . Veja o artigo que Jane vinculou. Y1Y2XY
Carlos Cinelli
2
@ Vimal: eu entendo o caso em que temos "distribuições de intervenção". Não temos "distribuições de intervenção" nesse cenário, e é isso que torna mais difícil entender. No exemplo motivador do artigo, eles fornecem algo como . A distribuição condicional de y dado x é essencialmente a distribuição do ruído ϵ mais alguma tradução, enquanto isso não se aplica à distribuição condicional de x dado y. Eu entendo inicialmente o exemplo. Estou tentando entender qual é a definição geral para a descoberta observacional da causalidade. (x,y=x3+ϵ)ϵ
214 Jane
2
@ Jane, no caso observacional (para sua pergunta), em geral você não pode inferir a direção da causalidade puramente matematicamente, pelo menos no caso de duas variáveis. Para mais variáveis, sob suposições adicionais (não testáveis), você pode fazer uma reivindicação, mas a conclusão ainda pode ser questionada. Essa discussão é muito longa nos comentários. :)
Vimal
0

XY

  1. XY

Uma intervenção é uma alteração cirúrgica em uma variável que não afeta as variáveis ​​das quais depende. As intervenções foram formalizadas rigorosamente em equações estruturais e modelos gráficos causais, mas, tanto quanto eu sei, não existe uma definição que seja independente de uma determinada classe de modelo.

  1. YX

XY

Nas abordagens modernas de causalidade, a intervenção é tomada como o objeto primitivo que define as relações causais (definição 1). Na minha opinião, no entanto, a intervenção é um reflexo e necessariamente consistente com a dinâmica da simulação.

zenna
fonte