Regressão e causalidade em econometria

8

Na regressão em geral e na regressão linear, em particular, a interpretação causal sobre parâmetros é às vezes permitida. Pelo menos na literatura econométrica, mas não somente quando a interpretação causal é permitida, não é tão claro; Para uma discussão, você pode ver: Regressão e Causação: Um Exame Crítico de Seis Livros de Econometria - Chen e Pearl (2013).

Para um tratamento adequado da causalidade no modelo estatístico, a melhor maneira é provavelmente usar o Modelo Causal Estrutural, conforme explicado, por exemplo (em breve), em: Trygve Haavelmo e o Emergence of Causal Calculus - Pearl 2012 feb.

No entanto, atualmente, esse não é o método padrão no modelo econométrico básico (regressão linear múltipla clássica). De fato, é freqüentemente usado o conceito de "modelo verdadeiro" ou "processo de geração de dados" que, às vezes, tem significado causal explícito. De qualquer forma, quero considerar apenas o sentido causal. Portanto, se estimarmos a contrapartida da amostra do "modelo verdadeiro", obteremos uma interpretação causal sobre os parâmetros.

Tendo em mente a consideração acima, minha tentativa é compreender

  • a ligação entre o conceito de "modelo verdadeiro" (dos atuais livros de econometria) e o modelo causal estrutural (de Pearl) ... se houver.

  • A ligação entre o ponto anterior e o conceito de experimento controlado randomizado , usado em laboratório, que às vezes é o ponto de referência no estudo observacional de econometria ( tão bom quanto ele). Por exemplo, Stock e Watson (2013) passam muita discussão sobre isso (particularmente o cap 13). Além disso, em Pearl 2012feb pag 14, há uma revisão do debate entre “estruturalistas” e “experimentalistas” que está fortemente relacionada a esse ponto.

Você pode me explicar algo sobre esses dois pontos no cenário mais simples possível?

Markowitz
fonte
2
Existem várias escolas de pensamento sobre causalidade na econometria. Veja, por exemplo, Heckman e Pinto (2015) comentando sobre Pearl, ou as aplicações do modelo de resultados em potencial de Rubin (por exemplo, na Econometria Sobrenatural Inofensiva de Angrist e Pischke).
Frank
não há "verdadeiros" modelos em economtrics
Aksakal
11
@ Frank: obrigado pelo artigo sugerido, eles certamente serão úteis. Sobre o livro de Angrist e Pischke, eu o li. Pesquisei cerca de dez livros de economia e a Econometria Principalmente Inofensiva representa o melhor sobre causalidade (minha opinião, mas provavelmente não apenas). Eu aprendi muito com isso. No entanto, pelo menos na minha opinião, mesmo este livro é exaustivo. Por exemplo, não diz nada sobre o modelo causal estrutural e a ligação entre ele e a linguagem de resultados em potencial. Finalmente, ele não oferece uma resposta às minhas duas perguntas acima. Ou, pelo menos, eu "não vejo" isso.
markowitz
11
@ Aksakal: responda como o seu diz tanto, tudo ou nada. Na minha opinião, nada diz porque não me diz nada: em primeiro lugar, por que em muitos livros econométricos o "modelo verdadeiro" é usado (e parece muito útil, se não essencial); quais são os links entre sua resposta e minhas perguntas? Se os links não existirem, a presença de "modelo verdadeiro" se tornaria muito difícil de explicar. De qualquer forma, eu sabia que "modelo verdadeiro" às vezes é criticado por conceito e que "mundo real" é algo diferente e os vínculos entre eles podem ser artificiais, mas essa é a teoria. Minha pergunta é sobre a teoria econométrica.
markowitz
@markowitz: Angrist e Pischke discutem isso, mas a linguagem deles pode estar confundindo você. Veja a seção 3.2.1: "a função nos diz o que ganharia por qualquer valor de escolaridade, . Em outras palavras, responde a perguntas causais 'e se'." Veja também a discussão do modelo causal de efeitos constantes lineares (no final da seção). fi(s)isfi(s)
Frank

Respostas:

5

No contexto do trabalho de Pearl que você forneceu, o que a maioria dos economistas chamaria de modelo verdadeiro é a entrada I-1 no Modelo de Estrutural: um conjunto de suposições e um modelo que codifica essas suposições, escritas como um sistema de equações estruturais (como nos Modelos 1 e 2) e uma lista de premissas estatísticas relacionadas às variáveis. Em geral, o modelo verdadeiro não precisa ser recursivo; portanto, o gráfico correspondente pode ter ciclos.AMA

O que é um exemplo de um modelo verdadeiro? Considere a relação entre escolaridade e ganhos, descrita em Angrist e Pischke (2009), seção 3.2. Para o indivíduo , o que os economistas chamariam de modelo verdadeiro é uma função assumida que mapeia qualquer nível de escolaridade para um resultado : Este é exatamente o resultado potencial. Pode-se ir além e assumir uma forma funcional paramétrica para . Por exemplo, o modelo causal de efeitos constantes lineares: Aqui, eisysi

ysi=fi(s).
fi(s)
fi(s)=α+ρs+ηi.
αρsão parâmetros não observados. Ao escrever dessa maneira, assumimos que não depende de . No idioma de Pearl, isso nos diz o que acontece com os ganhos esperados se fixarmos a escolaridade de um indivíduo emηissi=s0, mas não observamos ηi:
E[ysido(si=s0)]=E[fi(s0)]=α+ρs0+E[ηi].
Não dissemos em que consultas estamos interessados ​​ou em quais dados temos. Portanto, o "modelo verdadeiro" não é um SCM completo. (Isso geralmente é verdade, não apenas neste exemplo.)

Qual é a conexão entre um modelo verdadeiro e um experimento aleatório? Suponha que um economista deseje estimarρ. Apenas observando(si,yi)para um monte de indivíduos não é suficiente. Isso é idêntico ao argumento de Pearl sobre o condicionamento estatístico. Aqui

E[ysisi=s0]=E[fi(s0)si=s0]=α+ρs0+E[ηisi=s0].
Como Angrist e Pischke apontam, ηi pode estar correlacionado com si nos dados observacionais, devido ao viés de seleção: a decisão de um indivíduo sobre a escolaridade pode depender de seu valor ηi.

Experimentos randomizados são uma maneira de corrigir essa correlação. Usando a notação de Pearl vagamente aqui, se atribuirmos aleatoriamente nossos assuntos ado(si=s0) e do(si=s1) então podemos estimar E[ysido(si=s1)] e E[ysido(si=s0)]. Entãoρ É dado por:

E[ysido(si=s1)]E[ysido(si=s0)]=ρ(s1s0).

Com suposições e dados adicionais, há outras maneiras de corrigir a correlação. Um experimento aleatório é considerado apenas o "melhor" porque podemos não acreditar nas outras suposições. Por exemplo, com a suposição de independência condicional e dados adicionais, poderíamos estimarρpor OLS; ou poderíamos trazer variáveis ​​instrumentais.

Edit 2 (CIA) : Este é principalmente um ponto filosófico, e Angrist e Pischke podem discordar da minha apresentação aqui. A suposição de independência condicional (seleção em observáveis) permite corrigir o viés de seleção. Acrescenta uma suposição sobre distribuições conjuntas: que

fi(s)siXi
para todos s. Usando apenas álgebra de expectativa condicional (veja a derivação em Angrist e Pischke), segue-se que podemos escrever
yi=fi(si)=α+ρsi+Xiγ+vi
com E[viXi,si]=0. Essa equação nos permite estimarρ nos dados usando OLS.

Nem a randomização nem a CIA entram no sistema de equações que define o verdadeiro modelo. São suposições estatísticas que nos fornecem maneiras de estimar parâmetros de um modelo que já definimos, usando os dados que temos. Econometristas normalmente não considerariam a CIA parte do verdadeiro modelo, mas Pearl o incluiria emA.

Frank
fonte
Eu já vejo o exemplo de Angrist e Pischke e pensei sobre isso. Esse foi o melhor exemplo / explicação que eu nunca encontrei. Sua adição representa o que eu estava procurando. Obrigado.
markowitz
No entanto, deixe-me acrescentar alguns pontos e perguntas específicas. Angrist e Pischke chamam o modelo de "modelo causal de efeito constat linear", mas minha dúvida era exatamente se esse modelo era interpretável como "modelo verdadeiro" que eu costumo ver em muitos livros de econometria (por exemplo, veja meu comentário na resposta do ColorStatistics). Minha resposta favorita foi não, porque no "modelo verdadeiro" usual é explicitamente válida alguma forma de exogeneidade que é de fato precisamente violada no presente caso. Esta é exatamente a sua consideração final sobre a minha frase, mas eu estava ciente desse problema.
markowitz
Agora, Angrist e Pischke nunca falam sobre "modelo verdadeiro", mas você sugere essa interpretação. Provavelmente você está certo. De qualquer forma, você escreve: “Portanto, o" modelo verdadeiro "é apenas uma parte do SCM.”. Está bem! Sua é uma forma bem posta de um palpite que eu já tinha em mente. Essa conclusão é válida mesmo no caso do "verdadeiro modelo" de que me lembro antes?
markowitz
Na exposição de Angrist e Pischke, a CIA desempenha um papel fundamental e, na verdade, desempenha um papel fundamental na causalidade. Isso é essencial para eliminar o viés de seleção. No entanto, no exemplo, as suposições causais precederam explicitamente a intervenção da CIA. Eu acho que se pegarmos o modelo geraly=a+bx+cZ+e, Onde Z é um conjunto de controles, a condição da CIA (em Z) nunca é suficiente. A suposição causal deve precedery,xrelação mostrada na equação. Está certo? Penso que sim, caso contrário, o ditado "sem suposições causais, sem conclusões causais" é violado.
markowitz
11
@Frank, você pode fornecer qualquer especificação parcial de um modelo causal estrutural, o conjunto de suposições Aa que Pearl se refere. Tradicionalmente, serão declarações qualitativas das relações funcionais que você pode defender por motivos científicos. A CIA também é uma especificação parcial de um SCM, você está afirmando que a resposta potencialYs não depende de Sdado um conjunto de covariáveis, isso impõe restrições aos possíveis sistemas de equações.
Carlos Cinelli
5

Começarei com a segunda parte da sua pergunta, que diz respeito à diferença entre estudos de controle randomizados e estudos observacionais, e a encerrarei com a parte da sua pergunta referente ao "modelo verdadeiro" vs. "modelo causal estrutural".

Usarei um dos exemplos de Pearl, que é fácil de entender. Você percebe que quando as vendas de sorvete são mais altas (no verão), a taxa de criminalidade é mais alta (no verão) e quando as vendas de sorvete são mais baixas (no inverno), a taxa de criminalidade é mais baixa. Isso faz você pensar se o nível de vendas de sorvetes está causando o nível de criminalidade.

Se você pudesse realizar um experimento de controle aleatório, levaria muitos dias, suponha 100 dias, e em cada um desses dias atribuiria aleatoriamente o nível de vendas de sorvete. A chave para essa randomização, dada a estrutura causal mostrada no gráfico abaixo, é que a atribuição do nível de vendas de sorvetes é independente do nível de temperatura. Se tal experimento hipotético puder ser realizado, você deve descobrir que, nos dias em que as vendas foram aleatoriamente designadas como altas, a taxa média de criminalidade não é estatisticamente diferente dos dias em que as vendas foram designadas como baixas. Se você tivesse as mãos em tais dados, estaria tudo pronto. A maioria de nós, no entanto, precisa trabalhar com dados observacionais, onde a randomização não fez a mágica que fez no exemplo acima. Crucialmente, em dados observacionais, não sabemos se o nível de vendas de sorvetes foi determinado independentemente da temperatura ou se depende da temperatura. Como resultado, teríamos que, de alguma forma, desembaraçar o efeito causal do meramente correlativo.

A afirmação de Pearl é que as estatísticas não têm uma maneira de representar E [Y | Definimos X para ser igual a um valor específico], em oposição a E [Y | Condicionamento nos valores de X, dado pela distribuição conjunta de X e Y ] É por isso que ele usa a notação E [Y | do (X = x)] para se referir à expectativa de Y, quando intervimos em X e definimos seu valor igual a x, em oposição a E [Y | X = x] , que se refere ao condicionamento do valor de X, e considerando-o como dado.

O que exatamente significa intervir na variável X ou definir X igual a um valor específico? E como é diferente de condicionar o valor de X?

A intervenção é melhor explicada com o gráfico abaixo, no qual a temperatura tem um efeito causal nas vendas de sorvetes e na taxa de criminalidade, e as vendas de sorvetes têm um efeito causal na taxa de criminalidade, e as variáveis ​​U representam fatores não medidos que afetam as variáveis, mas não queremos modelar esses fatores. Nosso interesse está no efeito causal das vendas de sorvetes na taxa de criminalidade e suponha que nossa representação causal seja precisa e completa. Veja o gráfico abaixo.

insira a descrição da imagem aqui

Agora, suponha que possamos definir um nível de vendas de sorvete muito alto e observar se isso se traduziria em taxas mais altas de criminalidade. Para fazer isso, interviríamos nas vendas de sorvetes, o que significa que não permitimos que as vendas de sorvetes respondam naturalmente à temperatura. De fato, isso significa que realizamos o que Pearl chama de "cirurgia" no gráfico, removendo todas as bordas direcionadas para ela. variável. No nosso caso, como estamos intervindo nas vendas de sorvetes, removeríamos a borda das vendas de Temperatura e Sorvete, conforme mostrado abaixo. Definimos o nível de vendas de sorvetes para o que queremos, em vez de permitir que seja determinado pela temperatura. Então imagine que realizamos dois desses experimentos, aquele em que intervimos e definimos o nível de vendas de sorvetes muito alto e aquele em que intervimos e definimos o nível de vendas de sorvetes muito baixo e depois observamos como a taxa de criminalidade responde em cada caso. Em seguida, começaremos a entender se há um efeito causal entre as vendas de sorvetes e a taxa de criminalidade ou não.

insira a descrição da imagem aqui

Pearl distinguiu entre intervenção e condicionamento. O condicionamento aqui se refere apenas a uma filtragem de um conjunto de dados. Pense em condicionar a temperatura como olhando em nosso conjunto de dados observacionais apenas nos casos em que a temperatura fosse a mesma. O condicionamento nem sempre nos dá o efeito causal que estamos procurando (nem sempre o efeito causal). Acontece que o condicionamento nos daria o efeito causal na figura simplista desenhada acima, mas podemos facilmente modificar o gráfico para ilustrar um exemplo em que o condicionamento na temperatura não nos daria o efeito causal, enquanto a intervenção nas vendas de sorvetes daria. Imagine que existe outra variável que causa vendas de sorvetes, chame-a de variável X. No gráfico, seria representado com uma seta em Vendas de sorvetes. Nesse caso, condicionar a temperatura não nos daria o efeito causal das vendas de sorvetes na taxa de criminalidade, porque deixaria intocado o caminho: Variável X -> venda de sorvetes -> taxa de criminalidade. Por outro lado, intervir nas vendas de sorvetes significaria, por definição, remover todas as flechas do sorvete, e isso nos daria o efeito causal das vendas de sorvetes na taxa de criminalidade.

Mencionarei apenas que as maiores contribuições de Pearl, na minha opinião, são o conceito de colisores e como o condicionamento dos colisores fará com que variáveis ​​independentes sejam provavelmente dependentes.

Pearl chamaria um modelo com coeficientes causais (efeito direto), dado por E [Y | do (X = x)], o modelo causal estrutural. E as regressões em que os coeficientes são dados por E [Y | X] é o que ele diz que os autores chamam erroneamente de "modelo verdadeiro", ou seja, quando procuram estimar o efeito causal de X em Y e não apenas prever Y .

Então, qual é a ligação entre os modelos estruturais e o que podemos fazer empiricamente? Suponha que você queira entender o efeito causal da variável A na variável B. Pearl sugere duas maneiras de fazê-lo: Critério de backdoor e critério de Front door. Vou expandir o primeiro.

Critério de backdoor: primeiro, você precisa mapear corretamente todas as causas de cada variável e, usando o critério Backdoor, identificar o conjunto de variáveis ​​nas quais você precisa condicionar (e também o conjunto de variáveis ​​que você precisa para garantir que você não condicione em - isto é, colisores) para isolar o efeito causal de A em B. Como Pearl aponta, isso é testável. Você pode testar se mapeou ou não corretamente o modelo causal. Na prática, isso é mais fácil dizer do que fazer e, na minha opinião, o maior desafio com o critério Backdoor da Pearl. Segundo, execute a regressão, como de costume. Agora você sabe em que condições. Os coeficientes que você obterá seriam os efeitos diretos, conforme mapeados em seu mapa causal.

ColorStatistics
fonte
Entendo sua explicação, mas temo que ela não dê uma resposta sobre minha pergunta. Exceto, talvez, a frase final, mas discordo parcialmente dela. Em primeiro lugar, você explica a utilidade de um experimento. Eu concordo com você sobre isso. Depois que você disse que (em breve), no contexto observacional, temos que "de alguma forma desvendar o efeito causal do meramente correlativo" sem manipulações experimentais. Eu sei.
markowitz
Depois, desde a diferença conceitual entre condicionamento e intervenção, você introduz as notações intervencionistas de Pearl. Entendo a utilidade da notação intervencionista. Não estou confiante com o gráfico causal, mas certamente também é útil. As contribuições de Pearl são importantes. Por fim, você disse que: “Pearl chamaria um modelo com coeficientes causais (efeito direto), dado porE[Y|do(X=x)]o modelo causal estrutural ”. Ok, eu entendo.
MarkVanard 15/11
11
“Regressões nas quais os coeficientes são dados por E[Y|X] é o que ele diz que os autores chamam erroneamente de "modelo verdadeiro", ou seja, quando procuram estimar o efeito causal de X em Y e não apenas para prever Y. ” Isso me parece estritamente verdade porqueE[Y|X]nem sempre é o verdadeiro modelo. Qualquer regressão do OLS é uma expectativa condicional, mas nem todos são contrapartes do modelo verdadeiro frequentemente usado em livros econométricos.
MarkVanard 15/11
Deixe-me usar seu exemplo / Pearl: X1= temperatura, X2= quantidade de sorvete, Y= taxa de criminalidade. É possível definir o modelo verdadeiro (causal) como:Y=beta0+beta1X1+beta2X2+u mas estimamos o modelo subespecificado Y=alfa0+alfa1X1+e. É possível demonstrar que os parâmetros alfas são estimativas tendenciosas dos verdadeiros parâmetros causais (betas); no entanto, este último permanece uma expectativa condicional. Este é um problema de variáveis ​​omitidas. De fato, se estimarmos a forma correta especificada, ou um "mais longo", as estimativas serão iguais. são imparciais e sua interpretação causal é permitida.
MarkVanard 15/11
A explicação, pelo menos no caso simples, como acima, pode ser completa também sem as contribuições de Pearl (e relacionadas). Exatamente por razões como as acima, procuro as relações entre: Modelo Causal Estrutural (de Pearl), linguagem experimental (de Rubin); modelo verdadeiro usual usado em seu sentido causal (de muitos livros de economia). Estou convencido de que existem links, mas tenho dúvidas sobre a forma deles.
markowitz
0

O uso de 'causal' em tais abordagens baseadas em regressão / correlação é enganoso, na minha opinião. A análise de caminhos, modelagem de equações estruturais, causalidade de Granger, etc. tenta licenciar inferências causais impondo algumas suposições bastante tênues. No caso da modelagem de equações estruturais, por exemplo, os caminhos são direcionais e A parece 'causar' B, mas isso significa simplesmente que o modelo estruturado é 'plausível', na medida em que reproduz uma matriz de covariância observada (de fato, a direção dos caminhos nem sequer importam muito - apenas as restrições).

HEITZ
fonte