2SLS, mas Probit do segundo estágio

15

Estou tentando usar a análise de variáveis ​​instrumentais para inferir causalidade com dados observacionais.

Eu me deparei com uma regressão de mínimos quadrados em dois estágios (2SLS) que provavelmente abordará a questão da endogeneidade em minha pesquisa. No entanto, eu gostaria que o primeiro estágio fosse OLS e o segundo estágio fosse probit no 2SLS. Com base na minha leitura e pesquisa, vi pesquisadores usarem 2SLS ou probit de primeiro estágio e OLS de segundo estágio, mas não o contrário, que é o que estou tentando alcançar.

Atualmente, estou usando o Stata e o comando ivreg no Stata é para um 2SLS direto.

Veronica
fonte

Respostas:

12

Seu caso é menos problemático do que o contrário. Os operadores de expectativas e projeções lineares passam por um primeiro estágio linear (por exemplo, OLS), mas não por não lineares, como probit ou logit. Portanto, não é um problema se regredir primeiro seu contínuo endógeno variável no seu instrumento (s) Z , X i = um + Z ' i pi + η i e, em seguida, utilizar os valores ajustados em uma segunda etapa de probit para estimar Pr ( Y i = 1 | X i ) = Pr ( βXZ

XEu=uma+ZEuπ+ηEu
Pr(YEu=1 1|X^Eu)=Pr(βX^Eu+ϵEu>0 0)

X^Eu

// use a toy data set as example
webuse nlswork

// set up the program including 1st and 2nd stage
program my2sls
    reg grade age race tenure
    predict grade_hat, xb

    probit union grade_hat age race
    drop grade_hat
end

// obtain bootstrapped standard errors
bootstrap, reps(100): my2sls

Neste exemplo, queremos estimar o efeito dos anos de escolaridade na probabilidade de pertencer a um sindicato. Dado que os anos de educação provavelmente são endógenos, nós os instrumentamos com anos de posse no primeiro estágio. Obviamente, isso não faz sentido do ponto de interpretação, mas ilustra o código.

Apenas certifique-se de usar as mesmas variáveis ​​de controle exógenas no primeiro e no segundo estágio. No exemplo acima, são aqueles age, raceque o instrumento (não sensorial) tenureestá presente apenas no primeiro estágio.

Andy
fonte
Muito obrigado, isso resolveu o problema que eu estava enfrentando. Obrigado novamente.
Veronica
11
Na verdade, a pesquisa sugere usar uma abordagem de função de controle para modelos não lineares como um logit, que seria usar os resíduos do primeiro estágio juntamente com a variável endógena, em vez dos valores previstos. Embora pareça haver avanços frequentemente, consulte: stat.wharton.upenn.edu/~zijguo/…
robin.datadrivers
11
Desculpe, não forneci uma citação para comparar as duas abordagens para modelos lineares e não lineares. ncbi.nlm.nih.gov/pmc/articles/PMC2494557
robin.datadrivers
-1 Eu tive que rebaixar essa resposta, pois geralmente não é possível levar a idéia do estimador 2SLS para modelos não lineares no primeiro e / ou no segundo estágio. Pode ser verdade no caso do 1º estágio LS e do 2º estágio probit (@ Andy você tem uma referência para apoiar isso?), Mas pelo menos uma ressalva está em ordem, pois já vi muitas pessoas fazendo a ideia 2SLS de todos os tipos de casos de modelos não lineares no primeiro e no segundo estágio e essa é uma prática problemática.
Momo