Na regressão em geral e na regressão linear, em particular, a interpretação causal sobre parâmetros é às vezes permitida. Pelo menos na literatura econométrica, mas não somente quando a interpretação causal é permitida, não é tão claro; Para uma discussão, você pode ver: Regressão e Causação: Um Exame Crítico de Seis Livros de Econometria - Chen e Pearl (2013).
Para um tratamento adequado da causalidade no modelo estatístico, a melhor maneira é provavelmente usar o Modelo Causal Estrutural, conforme explicado, por exemplo (em breve), em: Trygve Haavelmo e o Emergence of Causal Calculus - Pearl 2012 feb.
No entanto, atualmente, esse não é o método padrão no modelo econométrico básico (regressão linear múltipla clássica). De fato, é freqüentemente usado o conceito de "modelo verdadeiro" ou "processo de geração de dados" que, às vezes, tem significado causal explícito. De qualquer forma, quero considerar apenas o sentido causal. Portanto, se estimarmos a contrapartida da amostra do "modelo verdadeiro", obteremos uma interpretação causal sobre os parâmetros.
Tendo em mente a consideração acima, minha tentativa é compreender
a ligação entre o conceito de "modelo verdadeiro" (dos atuais livros de econometria) e o modelo causal estrutural (de Pearl) ... se houver.
A ligação entre o ponto anterior e o conceito de experimento controlado randomizado , usado em laboratório, que às vezes é o ponto de referência no estudo observacional de econometria ( tão bom quanto ele). Por exemplo, Stock e Watson (2013) passam muita discussão sobre isso (particularmente o cap 13). Além disso, em Pearl 2012feb pag 14, há uma revisão do debate entre “estruturalistas” e “experimentalistas” que está fortemente relacionada a esse ponto.
Você pode me explicar algo sobre esses dois pontos no cenário mais simples possível?
fonte
Respostas:
No contexto do trabalho de Pearl que você forneceu, o que a maioria dos economistas chamaria de modelo verdadeiro é a entrada I-1 no Modelo de Estrutural: um conjunto de suposições e um modelo que codifica essas suposições, escritas como um sistema de equações estruturais (como nos Modelos 1 e 2) e uma lista de premissas estatísticas relacionadas às variáveis. Em geral, o modelo verdadeiro não precisa ser recursivo; portanto, o gráfico correspondente pode ter ciclos.UMA MUMA
O que é um exemplo de um modelo verdadeiro? Considere a relação entre escolaridade e ganhos, descrita em Angrist e Pischke (2009), seção 3.2. Para o indivíduo , o que os economistas chamariam de modelo verdadeiro é uma função assumida que mapeia qualquer nível de escolaridade para um resultado : Este é exatamente o resultado potencial. Pode-se ir além e assumir uma forma funcional paramétrica para . Por exemplo, o modelo causal de efeitos constantes lineares: Aqui, eEu s ys eu ys eu=fEu( S ) . fEu( S ) fEu( s ) = α + ρ s +ηEu. α ρ são parâmetros não observados. Ao escrever dessa maneira, assumimos que não depende de . No idioma de Pearl, isso nos diz o que acontece com os ganhos esperados se fixarmos a escolaridade de um indivíduo emηi s si=s0 , mas não observamos ηi :
E[ysi∣do(si=s0)]=E[fi(s0)]=α+ρs0+E[ηi].
Não dissemos em que consultas estamos interessados ou em quais dados temos. Portanto, o "modelo verdadeiro" não é um SCM completo. (Isso geralmente é verdade, não apenas neste exemplo.)
Qual é a conexão entre um modelo verdadeiro e um experimento aleatório? Suponha que um economista deseje estimarρ . Apenas observando(si,yi) para um monte de indivíduos não é suficiente. Isso é idêntico ao argumento de Pearl sobre o condicionamento estatístico. Aqui
E[ysi∣si=s0]=E[fi(s0)∣si=s0]=α+ρs0+E[ηi∣si=s0].
Como Angrist e Pischke apontam, ηi pode estar correlacionado com si nos dados observacionais, devido ao viés de seleção: a decisão de um indivíduo sobre a escolaridade pode depender de seu valor ηi .
Experimentos randomizados são uma maneira de corrigir essa correlação. Usando a notação de Pearl vagamente aqui, se atribuirmos aleatoriamente nossos assuntos ado(si=s0) e do(si=s1) então podemos estimar E[ysi∣do(si=s1)] e E[ysi∣do(si=s0)] . Entãoρ É dado por:
E[ysi∣do(si=s1)]−E[ysi∣do(si=s0)]=ρ(s1−s0).
Com suposições e dados adicionais, há outras maneiras de corrigir a correlação. Um experimento aleatório é considerado apenas o "melhor" porque podemos não acreditar nas outras suposições. Por exemplo, com a suposição de independência condicional e dados adicionais, poderíamos estimarρ por OLS; ou poderíamos trazer variáveis instrumentais.
Edit 2 (CIA) : Este é principalmente um ponto filosófico, e Angrist e Pischke podem discordar da minha apresentação aqui. A suposição de independência condicional (seleção em observáveis) permite corrigir o viés de seleção. Acrescenta uma suposição sobre distribuições conjuntas: quefi(s)⊥⊥si∣Xi
para todos s . Usando apenas álgebra de expectativa condicional (veja a derivação em Angrist e Pischke), segue-se que podemos escrever
yi=fi(si)=α+ρsi+X′iγ+vi
com E[vi∣Xi,si]=0 . Essa equação nos permite estimarρ nos dados usando OLS.
Nem a randomização nem a CIA entram no sistema de equações que define o verdadeiro modelo. São suposições estatísticas que nos fornecem maneiras de estimar parâmetros de um modelo que já definimos, usando os dados que temos. Econometristas normalmente não considerariam a CIA parte do verdadeiro modelo, mas Pearl o incluiria emA .
fonte
Começarei com a segunda parte da sua pergunta, que diz respeito à diferença entre estudos de controle randomizados e estudos observacionais, e a encerrarei com a parte da sua pergunta referente ao "modelo verdadeiro" vs. "modelo causal estrutural".
Usarei um dos exemplos de Pearl, que é fácil de entender. Você percebe que quando as vendas de sorvete são mais altas (no verão), a taxa de criminalidade é mais alta (no verão) e quando as vendas de sorvete são mais baixas (no inverno), a taxa de criminalidade é mais baixa. Isso faz você pensar se o nível de vendas de sorvetes está causando o nível de criminalidade.
Se você pudesse realizar um experimento de controle aleatório, levaria muitos dias, suponha 100 dias, e em cada um desses dias atribuiria aleatoriamente o nível de vendas de sorvete. A chave para essa randomização, dada a estrutura causal mostrada no gráfico abaixo, é que a atribuição do nível de vendas de sorvetes é independente do nível de temperatura. Se tal experimento hipotético puder ser realizado, você deve descobrir que, nos dias em que as vendas foram aleatoriamente designadas como altas, a taxa média de criminalidade não é estatisticamente diferente dos dias em que as vendas foram designadas como baixas. Se você tivesse as mãos em tais dados, estaria tudo pronto. A maioria de nós, no entanto, precisa trabalhar com dados observacionais, onde a randomização não fez a mágica que fez no exemplo acima. Crucialmente, em dados observacionais, não sabemos se o nível de vendas de sorvetes foi determinado independentemente da temperatura ou se depende da temperatura. Como resultado, teríamos que, de alguma forma, desembaraçar o efeito causal do meramente correlativo.
A afirmação de Pearl é que as estatísticas não têm uma maneira de representar E [Y | Definimos X para ser igual a um valor específico], em oposição a E [Y | Condicionamento nos valores de X, dado pela distribuição conjunta de X e Y ] É por isso que ele usa a notação E [Y | do (X = x)] para se referir à expectativa de Y, quando intervimos em X e definimos seu valor igual a x, em oposição a E [Y | X = x] , que se refere ao condicionamento do valor de X, e considerando-o como dado.
O que exatamente significa intervir na variável X ou definir X igual a um valor específico? E como é diferente de condicionar o valor de X?
A intervenção é melhor explicada com o gráfico abaixo, no qual a temperatura tem um efeito causal nas vendas de sorvetes e na taxa de criminalidade, e as vendas de sorvetes têm um efeito causal na taxa de criminalidade, e as variáveis U representam fatores não medidos que afetam as variáveis, mas não queremos modelar esses fatores. Nosso interesse está no efeito causal das vendas de sorvetes na taxa de criminalidade e suponha que nossa representação causal seja precisa e completa. Veja o gráfico abaixo.
Agora, suponha que possamos definir um nível de vendas de sorvete muito alto e observar se isso se traduziria em taxas mais altas de criminalidade. Para fazer isso, interviríamos nas vendas de sorvetes, o que significa que não permitimos que as vendas de sorvetes respondam naturalmente à temperatura. De fato, isso significa que realizamos o que Pearl chama de "cirurgia" no gráfico, removendo todas as bordas direcionadas para ela. variável. No nosso caso, como estamos intervindo nas vendas de sorvetes, removeríamos a borda das vendas de Temperatura e Sorvete, conforme mostrado abaixo. Definimos o nível de vendas de sorvetes para o que queremos, em vez de permitir que seja determinado pela temperatura. Então imagine que realizamos dois desses experimentos, aquele em que intervimos e definimos o nível de vendas de sorvetes muito alto e aquele em que intervimos e definimos o nível de vendas de sorvetes muito baixo e depois observamos como a taxa de criminalidade responde em cada caso. Em seguida, começaremos a entender se há um efeito causal entre as vendas de sorvetes e a taxa de criminalidade ou não.
Pearl distinguiu entre intervenção e condicionamento. O condicionamento aqui se refere apenas a uma filtragem de um conjunto de dados. Pense em condicionar a temperatura como olhando em nosso conjunto de dados observacionais apenas nos casos em que a temperatura fosse a mesma. O condicionamento nem sempre nos dá o efeito causal que estamos procurando (nem sempre o efeito causal). Acontece que o condicionamento nos daria o efeito causal na figura simplista desenhada acima, mas podemos facilmente modificar o gráfico para ilustrar um exemplo em que o condicionamento na temperatura não nos daria o efeito causal, enquanto a intervenção nas vendas de sorvetes daria. Imagine que existe outra variável que causa vendas de sorvetes, chame-a de variável X. No gráfico, seria representado com uma seta em Vendas de sorvetes. Nesse caso, condicionar a temperatura não nos daria o efeito causal das vendas de sorvetes na taxa de criminalidade, porque deixaria intocado o caminho: Variável X -> venda de sorvetes -> taxa de criminalidade. Por outro lado, intervir nas vendas de sorvetes significaria, por definição, remover todas as flechas do sorvete, e isso nos daria o efeito causal das vendas de sorvetes na taxa de criminalidade.
Mencionarei apenas que as maiores contribuições de Pearl, na minha opinião, são o conceito de colisores e como o condicionamento dos colisores fará com que variáveis independentes sejam provavelmente dependentes.
Pearl chamaria um modelo com coeficientes causais (efeito direto), dado por E [Y | do (X = x)], o modelo causal estrutural. E as regressões em que os coeficientes são dados por E [Y | X] é o que ele diz que os autores chamam erroneamente de "modelo verdadeiro", ou seja, quando procuram estimar o efeito causal de X em Y e não apenas prever Y .
Então, qual é a ligação entre os modelos estruturais e o que podemos fazer empiricamente? Suponha que você queira entender o efeito causal da variável A na variável B. Pearl sugere duas maneiras de fazê-lo: Critério de backdoor e critério de Front door. Vou expandir o primeiro.
Critério de backdoor: primeiro, você precisa mapear corretamente todas as causas de cada variável e, usando o critério Backdoor, identificar o conjunto de variáveis nas quais você precisa condicionar (e também o conjunto de variáveis que você precisa para garantir que você não condicione em - isto é, colisores) para isolar o efeito causal de A em B. Como Pearl aponta, isso é testável. Você pode testar se mapeou ou não corretamente o modelo causal. Na prática, isso é mais fácil dizer do que fazer e, na minha opinião, o maior desafio com o critério Backdoor da Pearl. Segundo, execute a regressão, como de costume. Agora você sabe em que condições. Os coeficientes que você obterá seriam os efeitos diretos, conforme mapeados em seu mapa causal.
fonte
O uso de 'causal' em tais abordagens baseadas em regressão / correlação é enganoso, na minha opinião. A análise de caminhos, modelagem de equações estruturais, causalidade de Granger, etc. tenta licenciar inferências causais impondo algumas suposições bastante tênues. No caso da modelagem de equações estruturais, por exemplo, os caminhos são direcionais e A parece 'causar' B, mas isso significa simplesmente que o modelo estruturado é 'plausível', na medida em que reproduz uma matriz de covariância observada (de fato, a direção dos caminhos nem sequer importam muito - apenas as restrições).
fonte