Uma regressão de em não precisa ser causal se houver variáveis omitidas que influenciam e . Mas se não for para variáveis omitidas e erro de medição, uma regressão é causal? Ou seja, se todas as variáveis possíveis forem incluídas na regressão?
regression
bias
causality
Esha
fonte
fonte
Respostas:
Não, não é, vou mostrar alguns contra-exemplos.
O primeiro é a causa inversa . Considere que o modelo causal éY→X , onde X e Y são variáveis aleatórias gaussianas padrão. Então E[Y|do(x)]=0 , pois X não causa Y , mas E[Y|x] dependerá X .
O segundo exemplo é o controle de coletores (veja aqui ). Considere o modelo causalX→Z←Y , ou seja, X não causa Y e Z é uma causa comum. Mas observe que, se você executar uma regressão incluindo Z , o coeficiente de regressão de X não será zero, porque o condicionamento na causa comum induzirá a associação entre Y e X (você pode ver aqui também a Análise de Caminho na Presença de um colisor condicionado ).
De maneira mais geral, a regressão deY em X será causal se as variáveis incluídas na regressão satisfizerem o critério de backdoor .
fonte
Além da importante resposta de Carlos Cinelli a essa pergunta, existem mais algumas razões pelas quais os coeficientes de regressão podem não ser causais.
Em primeiro lugar, a especificação incorreta do modelo pode fazer com que os parâmetros não sejam causais. Só porque você tem todas as variáveis relevantes no seu modelo não significa que você as ajustou da maneira correta. Como um exemplo muito simples, considere uma variávelX que é distribuída simétrica em torno de 0. Suponha que sua variável de resultado Y seja afetada por X forma que E(Y∣X)=X2 . Regressar Y em X (em oposição a X2 ) fornecerá um coeficiente estimado para X de cerca de 0, claramente tendencioso, apesar de você ter ajustado para todas (a única) variável que afetaY .
Em segundo lugar, e relacionado ao tópico causalidade reversa, também há o risco de que você possa ter um viés de seleção , ou seja, que sua amostra tenha sido selecionada de tal forma que não seja representativa para a população para a qual você deseja extrair sua inferência. Além disso, os dados ausentes também podem introduzir viés se os dados não estiverem faltando completamente aleatoriamente.
fonte