Uma regressão é causal se não houver variáveis ​​omitidas?

13

Uma regressão de y em x não precisa ser causal se houver variáveis ​​omitidas que influenciam x e y . Mas se não for para variáveis ​​omitidas e erro de medição, uma regressão é causal? Ou seja, se todas as variáveis ​​possíveis forem incluídas na regressão?

Esha
fonte
4
Não, mesmo se você incluísse todas as variáveis ​​do mundo, isso poderia ser causal inverso. Por exemplo, a proximidade de um planeta de sua estrela mais próxima poderia ser previsto com precisão pela temperatura da superfície do planeta, mas claramente a causalidade vai a outra maneira
gazza89
@ gazza89 - como isso responde efetivamente à pergunta, você pode expandi-la para uma resposta.
jbowman
3
O que são "variáveis ​​omitidas"? Suponha que eu tenha um Y e 4 Xs no meu conjunto de dados. Eu ajustei um modelo incluindo todos os 4 Xs. Então eu não tenho variáveis ​​omitidas?
user158565

Respostas:

20

Não, não é, vou mostrar alguns contra-exemplos.

O primeiro é a causa inversa . Considere que o modelo causal é YX , onde X e Y são variáveis ​​aleatórias gaussianas padrão. Então E[Y|do(x)]=0 , pois X não causa Y , mas E[Y|x] dependerá X .

O segundo exemplo é o controle de coletores (veja aqui ). Considere o modelo causal XZY , ou seja, X não causa Y e Z é uma causa comum. Mas observe que, se você executar uma regressão incluindo Z , o coeficiente de regressão de X não será zero, porque o condicionamento na causa comum induzirá a associação entre Y e X (você pode ver aqui também a Análise de Caminho na Presença de um colisor condicionado ).

De maneira mais geral, a regressão de Y em X será causal se as variáveis ​​incluídas na regressão satisfizerem o critério de backdoor .

Carlos Cinelli
fonte
3
Altamente recomendar o livro do por que, por Judea Pearl. Explica completamente a que Carlos se refere.
Markos Kashiouris 23/10
3
O que significa ? do(x)
naught101
5
@ naught101 isso significa que você realmente forçar X = x, em contraste com observando passivamente X = x, veja aqui stats.stackexchange.com/questions/211008/dox-operator-meaning/...
Carlos Cinelli
Obrigado, mas não estou claro sobre a notação. Faz significativo Z faz com que X e Y ? As setas devem ser invertidas? XZYZXY
Esha
@Esha Significa ambos e y provoca zxyz
Carlos Cinelli
6

Além da importante resposta de Carlos Cinelli a essa pergunta, existem mais algumas razões pelas quais os coeficientes de regressão podem não ser causais.

Em primeiro lugar, a especificação incorreta do modelo pode fazer com que os parâmetros não sejam causais. Só porque você tem todas as variáveis ​​relevantes no seu modelo não significa que você as ajustou da maneira correta. Como um exemplo muito simples, considere uma variável X que é distribuída simétrica em torno de 0. Suponha que sua variável de resultado Y seja afetada por X forma que E(YX)=X2 . Regressar Y em X (em oposição a X2 ) fornecerá um coeficiente estimado para X de cerca de 0, claramente tendencioso, apesar de você ter ajustado para todas (a única) variável que afetaY .

Em segundo lugar, e relacionado ao tópico causalidade reversa, também há o risco de que você possa ter um viés de seleção , ou seja, que sua amostra tenha sido selecionada de tal forma que não seja representativa para a população para a qual você deseja extrair sua inferência. Além disso, os dados ausentes também podem introduzir viés se os dados não estiverem faltando completamente aleatoriamente.

Phil
fonte