Modelos de dois estágios: diferença entre os modelos de Heckman (para lidar com a seleção da amostra) e as variáveis instrumentais (para lidar com a endogenidade)

16

Estou tentando entender a diferença entre seleção e endogeneidade de amostras e, por sua vez, como os modelos de Heckman (para lidar com a seleção de amostras) diferem das regressões instrumentais de variáveis (para lidar com a endogeneidade).

É correto dizer que a seleção da amostra é uma forma específica de endogeneidade, onde a variável endógena é a probabilidade de ser tratado?

Além disso, parece-me que os modelos de Heckman e a regressão IV são modelos de dois estágios, onde o primeiro estágio prevê a probabilidade de serem tratados - presumo que eles devam diferir em termos do que estão fazendo empiricamente, seus objetivos e suposições, mas como?

instrumental-variables endogeneity 2sls heckman Kyrenia
fonte

23

Para responder à sua primeira pergunta, você está certo de que a seleção de amostras é uma forma específica de endogeneidade (consulte Antonakis et al. 2010 para obter uma boa revisão básica da endogeneidade e dos remédios comuns); no entanto, você não está certo ao dizer que a probabilidade de ser tratado é a variável endógena, pois é a própria variável de tratamento ("atribuição de tratamento não aleatório") - e não a probabilidade de ser tratado - que é endógena na seleção da amostra. Lembre-se de que a endogeneidade se refere a uma situação em que você identificou incorretamente uma relação causal entre o fator X e o fator Y, quando a “relação” observada é realmente devida a outro fator Z que afeta X e Y. Em outras palavras, dado um modelo de regressão :

$y_i=\beta_0+\beta_1x_i+...+\epsilon_i$

a endogeneidade ocorre quando um ou mais de um de seus preditores está relacionado ao termo de erro no modelo. Ou seja, quando . $Cov(x,\epsilon)\ne0$

As causas comuns de endogenidade incluem:

Variáveis omitidas (algumas coisas que simplesmente não podemos medir)
- Motivação / escolha
- Capacidade / talento
- Auto-seleção
Erro de medição (gostaríamos de incluir , mas apenas observamos ) $x_j$ $x_j*$
Simultaneidade / bidirecionalidade (em crianças menores de 5 anos, a relação entre o indicador do estado nutricional “peso por idade” e se a criança teve uma doença recente pode ser simultânea.

Diferentes tipos de problemas requerem soluções ligeiramente diferentes, e é aí que reside a diferença entre as correções do tipo IV e do tipo Heckman. Certamente, existem diferenças na mecânica subjacente desses métodos, mas a premissa é a mesma: remover a endogeneidade, idealmente através de uma restrição de exclusão, ou seja, um ou mais instrumentos no caso de IV ou uma variável que afeta a seleção, mas não a o resultado no caso de Heckman.

Para responder sua segunda pergunta, você deve pensar nas diferenças nos tipos de limitações de dados que deram origem ao desenvolvimento dessas soluções. Eu gosto de pensar que a abordagem da variável instrumental (IV) é usada quando uma ou mais variáveis são endógenas, e simplesmente não existem bons proxies para colar no modelo para remover a endogeneidade, mas as covariáveis e os resultados são observados para todas as observações. As correções do tipo Heckman, por outro lado, são usadas quando você tem truncamento, ou seja, as informações não são observadas para aqueles na amostra em que o valor da variável de seleção == 0.

A abordagem da variável instrumental (IV)

Pense no exemplo econométrico clássico para regressão IV com o estimador de mínimos quadrados de dois estágios (2SLS): o efeito da educação sobre os ganhos.

(1) $Earnings_i=\beta_0+ \beta_1OwnEd_i + \epsilon_i$

Aqui, o nível de desempenho educacional é endógeno porque é determinado em parte pela motivação e capacidade do indivíduo, os quais também afetam os ganhos de uma pessoa. A motivação e a capacidade geralmente não são medidas em pesquisas domésticas ou econômicas. A equação 1 pode, portanto, ser escrita para incluir explicitamente motivação e habilidade:

(2) $Earnings_i=\beta_0+ \{\beta_1OwnEd_i + \beta_2Motiv_i + \beta_3Abil_i\} + \epsilon_i$

Uma vez que e não são realmente observado, a equação 2 pode ser escrito como: $Motiv$ $Abil$

(3), $Earnings_i=\beta_0+ \beta_1OwnEd_i + u_i$

onde (4). $u_i=\beta_2Motiv_i + \beta_3Abil_i + \epsilon_i$

Portanto, uma estimativa ingênua do efeito da educação sobre os ganhos via OLS seria enviesada. Esta parte você já conhece.

No passado, as pessoas usavam a educação dos pais como instrumentos para o nível de educação da própria pessoa, pois atendiam aos 3 requisitos para um instrumento válido ( ): $z$

deve estar relacionado ao preditor endógeno - , $z$ $𝐶𝑜𝑣(𝑧,𝑥)≠0$
$z$ não pode estar diretamente relacionado ao resultado - e $𝐶𝑜𝑣(𝑧,𝑦)=0$
não pode estar relacionado à característica não observável (u) (ou seja, $z$ é exógena) - $z$ $𝐶𝑜𝑣(𝑧,𝑢)=0$

Ao estimar o ensino do tema ( ) usando a educação dos pais ( e ) na primeira fase e utilizar o valor previsto de ensino ( ) a estimativa a segunda fase, que está (em termos muito simplista), estimando com base na porção de $OwnEd$ $MomEd$ $DadEd$ $\widehat{OwnEd}$ $Earnings$ $Earnings$ que não é determinada por motivação / capacidade. $OwnEd$

Correções do tipo Heckman

Como estabelecemos anteriormente, a seleção de amostras não aleatórias é um tipo específico de endogeneidade. Nesse caso, a variável omitida é como as pessoas foram selecionadas na amostra. Normalmente, quando você tem um problema de seleção de amostra, seu resultado é observado apenas para aqueles para quem a seleção é feita variable == 1. Esse problema também é conhecido como "truncamento incidental" e a solução é comumente conhecida como correção de Heckman. O exemplo clássico em econometria é a oferta salarial de mulheres casadas:

$Wage_i = \beta_0 + \beta_1Educ_i + \beta_2Experience_i + \beta_3Experience^2_i+\epsilon_i$

$Wage$ $s$

$Wage_i^* = X\beta^\prime+\epsilon_i$

$LaborForce_i^* = Z\gamma^\prime+\nu_i$

$Wage = Wage_i^*$ $LaborForce_i^*>0$ $Wage = .$ $LaborForce_i^*\leq 0$

$\hat{\lambda}$ $\hat{\lambda}$ $\hat{\lambda}$ $\hat{\lambda}$ é estatisticamente diferente de zero, você precisará relatar os coeficientes do modelo corrigido.

Referências

Antonakis, John, Samuel Bendahan, Philippe Jacquart e Rafael Lalive. 2010. “Sobre reivindicações causais: uma revisão e recomendações.” The Leadership Quarterly 21 (6): 1086–1120. doi: 10.1016 / j.leaqua.2010.10.010.
Wooldridge, Jeffrey M. 2009. Econometria Introdutória: Uma Abordagem Moderna. 4th ed. Mason, OH, EUA: Sudoeste, Aprendizado Cengage.

Marquês de Carabas
fonte

1

Na correção do tipo Heckman, como interpretar os valores da razão inversa de Mills para cada observação? Diz o número de pessoas que trabalharão com a população que não trabalha em um determinado momento?

Quirik

2

Deve-se fazer uma distinção entre as especificidades seleção de amostras de Heckman (onde apenas uma amostra é observada) e as correções do tipo Heckman para auto-seleção, que também podem funcionar no caso em que as duas amostras são observadas. O último é chamado de abordagem da função de controle e inclui um segundo controle da endogeneidade em seu segundo estágio.

Vamos ter um caso padrão com uma variável dummy endógena D, um instrumento Z:

Y = β + β_{1} D + ϵ

$Y= \beta + \beta_1 D +\epsilon$

D = γ + γ_{1} Z + u

$D= \gamma + \gamma_1 Z +u$

Ambas as abordagens executam um primeiro estágio (D em Z). IV usa um OLS padrão (mesmo que D seja um manequim) Heckman usa um probit. Mas, além disso, a principal diferença está na maneira como eles usam esse primeiro estágio na equação principal:

$\epsilon$ $Y= \beta + \beta_1 \hat{D}+\epsilon$
$Y= \beta + \beta_1 D + \beta_2 \left[\lambda(\hat{D})-\lambda(-\hat{D})\right ] +\epsilon$ $\lambda()$ é o inverso da razão de Mills

$\beta_2$

Então, você tem a história padrão de que, com erros normais, a função de controle será mais eficiente (especialmente se alguém usar o MLE em vez das duas etapas mostradas aqui) do que o IV, mas que, se a suposição não for válida, o IV seria Melhor. À medida que os pesquisadores se tornam mais suspeitos sobre a suposição de normalidade, o IV é usado com mais frequência.

Matifou
fonte

0

De Heckman, Urzua e Vytlacil (2006):

Exemplo de viés de seleção : considere os efeitos de uma política no resultado de um país (por exemplo, PIB). Se os países que se sairiam bem em termos de não observáveis, mesmo na ausência da política, forem os que adotarem a política, as estimativas da OLS serão tendenciosas.

Duas abordagens principais foram adotadas para resolver esse problema: (a) modelos de seleção e (b) modelos de variáveis instrumentais.

A abordagem de seleção modela os níveis de médias condicionais. A abordagem IV modela as inclinações dos meios condicionais. IV não identifica as constantes estimadas nos modelos de seleção.

A aproximação IV não condiciona em D (o tratamento). O estimador de seleção (função de controle) identifica as médias condicionais usando as funções de controle.

$Z\neq X$

José Gabriel Astaiza-Gómez
fonte

Modelos de dois estágios: diferença entre os modelos de Heckman (para lidar com a seleção da amostra) e as variáveis ​​instrumentais (para lidar com a endogenidade)

Respostas:

Modelos de dois estágios: diferença entre os modelos de Heckman (para lidar com a seleção da amostra) e as variáveis instrumentais (para lidar com a endogenidade)