O que “endogeneidade” e “exogeneidade” significam substantivamente?

43

Entendo que a definição básica de endogeneidade é que não está satisfeito, mas o que isso significa no sentido do mundo real? Eu li o artigo da Wikipedia, com o exemplo de oferta e demanda, tentando entender o sentido, mas não ajudou muito. Ouvi a outra descrição de endógena e exógena como estando dentro do sistema e estando fora do sistema, e isso ainda não faz sentido para mim.

Xϵ=0
user25901
fonte
11
Todas as três respostas abaixo são muito boas (+1 para cada). Se você deseja outra fonte de informação, discuto este tópico aqui: Estimando vez deb 1 x 1 + b 2 x 2 + b 3 x 3b1x1+b2x2b1x1+b2x2+b3x3 e -o com uma simulação em R.
gung - Restabelece Monica
11
Quando você tem endogeneidade, sua regressão não tem mais estimadores utilizáveis ​​nem estatísticas de teste.
31316 Ivan Ivan
11
Concordo com o @gung e gostaria de enfatizar que uma resposta completa abordaria "Utilizável para qual finalidade "? Muitas das respostas acima lidam muito bem com essa pergunta.
Matthew Drury
@ Matthew Parece-me que este post tenta responder à pergunta "o que isso significa no sentido do mundo real?" Seria bom ver a explicação detalhada para que as pessoas pudessem apreciá-la melhor.
whuber
@ whuber eu não sei, é tão curto que eu realmente não posso dizer. Mas eu estava pensando, por exemplo, que o modelo estimado pode ser útil para previsão (ou apenas associação), mesmo se você tiver endogeneidade, para que "não tenha mais estimadores utilizáveis" pareça falso sem esclarecimentos.
Matthew Drury

Respostas:

69

A resposta de JohnRos é muito boa. Em inglês simples, endogeneidade significa que você errou a causa. Que o modelo que você anotou e estimou não capta adequadamente a maneira como a causação funciona no mundo real. Quando você escreve:

Yi=β0+β1Xi+ϵi

você pode pensar nessa equação de várias maneiras. Você pode pensar nisso como uma maneira conveniente de prever base nos valores deVocê pode pensar nisso como uma maneira conveniente de modelar . Em qualquer um desses casos, não existe endogeneidade, e você não precisa se preocupar com isso.X E { S | X }YXE{Y|X}

No entanto, você também pode pensar na equação como incorporando causalidade. Você pode pensar em como a resposta à pergunta: "O que aconteceria com se eu chegasse a esse sistema e aumentasse experimentalmente 1 em ?" Se você quiser pensar dessa maneira, usar o OLS para estimar equivale a supor que: Y Xβ1YX

  1. YX causaY
  2. Yϵ causaY
  3. Xϵ não causaX
  4. XY não causaX
  5. Nada que causa também causaXϵX

A falha de qualquer um dos 3-5 geralmente resultará em , ou, não de maneira equivalente, . Variáveis ​​instrumentais é uma maneira de corrigir o fato de você ter errado a causa (fazendo outra suposição causal diferente). Um estudo randomizado controlado perfeitamente conduzido é uma maneira de forçar 3-5 a ser verdade. Se você escolher aleatoriamente, com certeza não será causado por , ou qualquer outra coisa. Os chamados métodos de "experimento natural" são tentativas de encontrar circunstâncias especiais no mundo em que 3-5 são verdadeiras, mesmo quando não pensamos que 3-5 sejam verdadeiras.C o v ( X , ϵ ) 0 X Y ϵE{ϵ|X}0Cov(X,ϵ)0XYϵ

No exemplo de JohnRos, para calcular o valor salarial da educação, você precisa de uma interpretação causal de , mas há boas razões para acreditar que 3 ou 5 são falsos.β1

Sua confusão é compreensível, no entanto. É muito típico em cursos sobre o modelo linear o instrutor usar a interpretação causal de eu dei acima, fingindo não apresentar a causa, fingindo que "tudo é apenas estatística". É uma mentira covarde, mas também é muito comum. β1

De fato, faz parte de um fenômeno maior na biomedicina e nas ciências sociais. É quase sempre o caso em que estamos tentando determinar o efeito causal de em - é disso que se trata a ciência, afinal. Por outro lado, também é quase sempre o caso de uma história que você pode contar, levando à conclusão de que uma das 3 a 5 é falsa. Portanto, existe um tipo de desonestidade praticada, fluida e equivocada, na qual eliminamos objeções dizendo que estamos apenas fazendo um trabalho associativo e depois escondemos a interpretação causal em outro lugar (normalmente nas seções de introdução e conclusão do artigo).YXY

Se você está realmente interessado, o cara a ler é Judea Perl. James Heckman também é bom.

Conta
fonte
5
+1 Ótima explicação e comentário. Bem vindo ao nosso site!.
whuber
2
Você poderia indicar qual trabalho de Heckman você recomendaria para obter um entendimento básico e sólido sobre esse assunto?
Kenny LJ
E[ϵ|X]=0E[ϵX]=0E[ϵ|X]=0E[ϵX]=0ϵ
precisa saber é o seguinte
11
E{ϵ|X}=0ϵE{ϵ|X}=0E{ϵ|X}=0Cov{X,e}=0eE{ϵ|X}=0
2
@KevinKim Isso mesmo. E não é apenas o modelo linear. É tudo de estatística. Observe que, quando alguém diz que "correlação não é causalidade", eles nunca dizem o que é causação. Causar é teoria e só pode ser teoria. Mesmo um ECR (perfeitamente --- e, portanto, nunca --- conduzido) não indica causalidade sem teoria.
Bill
18

Deixe-me usar um exemplo:

Digamos que você queira quantificar o efeito (causal) da educação sobre a renda. Você estuda e estuda dados de renda e regride um contra o outro. Você recuperou o que queria? Provavelmente não! Isso ocorre porque a renda também é causada por outras coisas que não a educação, mas que estão correlacionadas à educação. Vamos chamá-los de "habilidade": podemos assumir com segurança que os anos de ensino são afetados por "habilidade", pois quanto mais habilidoso você for, mais fácil será obter educação. Portanto, se você regredir os anos de ensino sobre a renda, o estimador do efeito de educação absorve o efeito de "habilidade" e obtém uma estimativa excessivamente otimista do retorno à educação. Isto é, o efeito da educação na renda é (ascendente) tendencioso porque a educação não é exógena à renda.

Cov(X,ϵ)=0

JohnRos
fonte
11
Obrigado pelo exemplo e pela explicação. Ainda estou um pouco ignorante sobre o que significa endogeneidade e exogeneidade no inglês comum. O que exatamente quero dizer quando digo que uma variável é endógena ou, nesse caso, exógena.
user25901
@ JohnRos Você escreveu "Endogeneidade é apenas um problema se você deseja recuperar efeitos causais", então parece-me que também é possível dizer que: "exogeneidade implica causalidade" ... Eu nunca li essa frase ... no entanto Está certo? Se estiver correto, parece-me que muitos livros didáticos, às vezes implicitamente, supõem inferência causal como objetivos normais.
markowitz
@ Markowitz: Sempre que você deduz coeficientes de regressão, está implícito que você quer causalidade. Se você deseja apenas previsões, o valor dos coeficientes não importa realmente, desde que as previsões sejam boas. É verdade que os livros clássicos não fazer essa distinção porque antes a tarefa de previsão não é "ciência básica", mas sim mais "engenharia" (e me perdoe por esta generalização bruto)
JohnRos
Obrigado JohnRos, deixe-me fazer outra pergunta sobre um ponto relacionado. O problema da estimativa enviesada dos coeficientes só faz sentido no modelo de regressão causal, enquanto que para os objetivos de previsão definitivamente não o são. Está certo? Eu pergunto isso porque esse ponto não está claro em nenhum lugar.
58668 Markowitz
8

O User25901 está procurando uma explicação simples e direta do mundo real, o que significam os termos exógeno e endógeno. Responder com exemplos misteriosos ou definições matemáticas realmente não responde à pergunta que foi feita.

Como entendo esses dois termos?

Aqui está o que eu vim com:

Exo - externo, externo Endo - interno, interno - originário de

Exógena: uma variável é exógena para um modelo se não for determinada por outros parâmetros e variáveis ​​no modelo, mas for definida externamente e quaisquer alterações nela vierem de forças externas.

Endógena: Uma variável é endógena em um modelo se, pelo menos em parte, é função de outros parâmetros e variáveis ​​em um modelo.

bearvarine
fonte
7
Essas são definições intuitivas razoáveis, mas não há necessidade de ser tão desdenhoso das outras respostas.
gung - Restabelece Monica
3
Apelar para a etimologia pode ser útil para lembrar o significado de termos técnicos (funciona bem para mim), mas usar a etimologia para justificá- los deve ser evitado. Alguns termos (em estatística e em outros lugares) são entendidos adequadamente apenas através de um estudo cuidadoso de suas definições matemáticas. A compreensão desta resposta requer uma concepção clara dos usos pretendidos de palavras e frases como "determinado por", "definido externamente", "alterado para" "forças externas" e "parcialmente [a] função", nenhuma das quais é imediatamente aparente ou inequívoco.
whuber
6

Xϵ=0Xϵ^=0

Y=α+βX+γZ+noiseZXXnoise0ZXlog(ex)=x. É apenas um fato matemático. Esse é o viés da variável omitida.

IYXIXXY

Esse é o mínimo de dois estágios, que é quase o mesmo que IV.

generic_user
fonte
Pelo que entendi, não é o 2SLS uma maneira de fazer IV, desculpas se estiver enganado.
User25901
Os erros 2SLS padrão estão errados. Eu esqueço o porquê ou como, mas você provavelmente encontrará algo se pesquisar no Google "Erros padrão do IV 2SLS". A maioria dos pacotes de software de implementar MQ2E com a resolver (t (z)% *% (X)% *% t (z)% * método% y
generic_user
11
X^X
Obrigado. Eu acabei de sair da econometria aplicada quando escrevi isso.
generic_user
-1

Em regressão, queremos capturar o impacto quantitativo de uma variável independente (que assumimos ser exógena e não ser ela própria dependente de outra coisa) em uma variável dependente identificada. Queremos saber qual o efeito líquido de uma variável exógena sobre uma variável dependente - o que significa que a variável independente deve estar livre de qualquer influência de outra variável. Uma maneira rápida de verificar se a regressão está sofrendo com o problema da endogeneidade é verificar a correlação entre a variável independente e os resíduos. Mas isso é apenas uma verificação aproximada, caso contrário, testes formais de endogeneidade precisam ser realizados.

Amon Magwiro
fonte
3
Isso não é verdade. A correlação entre os resíduos e as variáveis ​​explicativas de uma regressão é zero por construção. Este não é um teste de endogeneidade.
Andy
E[ϵX]=0ϵy=b0+b1x+ϵϵE[e^i|x]=0e^iE[e^i|x]=0b^0+b^1x