Eu li que o estimador 2SLS ainda é consistente, mesmo com a variável endógena binária ( http://www.stata.com/statalist/archive/2004-07/msg00699.html ). No primeiro estágio, um modelo de tratamento probit será executado em vez de um modelo linear.
Existe alguma prova formal para mostrar que o 2SLS ainda é consistente, mesmo quando o 1º estágio é um modelo probit ou logit?
E se o resultado também for binário? Entendo que, se tivermos um resultado binário e uma variável endógena binária (os primeiro e o segundo estágios são modelos probit / logit binários), imitar o método 2SLS produzirá uma estimativa inconsistente. Existe alguma prova formal para isso? O livro econométrico de Wooldridge tem alguma discussão, mas acho que não há provas rigorosas para mostrar a inconsistência.
data sim;
do i=1 to 500000;
iv=rand("normal",0,1);
x2=rand("normal",0,1);
x3=rand("normal",0,1);
lp=0.5+0.8*iv+0.5*x2-0.2*x3;
T=rand("bernoulli",exp(lp)/(1+exp(lp)));
Y=-0.8+1.2*T-1.3*x2-0.8*x3+rand("normal",0,1);
output;
end;
run;
****1st stage: logit model ****;
****get predicted values ****;
proc logistic data=sim descending;
model T=IV;
output out=pred1 pred=p;
run;
****2nd stage: ols model with predicted values****;
proc reg data=pred1;
model y=p;
run;
o coeficiente de p = 1.19984
. Eu executo apenas uma simulação, mas com um tamanho de amostra grande.
fonte
Respostas:
Houve uma pergunta semelhante em relação a um primeiro estágio probit e um segundo estágio OLS. Na resposta , forneço um link para notas que contêm uma prova formal da inconsistência dessa regressão, formalmente conhecida como "regressão proibida", como foi denominado por Jerry Hausman. A principal razão para a inconsistência da abordagem probit primeiro estágio / OLS segundo estágio é que nem o operador de expectativas nem o operador de projeções lineares passam por um primeiro estágio não linear. Portanto, os valores ajustados de um probit do primeiro estágio não são correlacionados apenas com o termo de erro do segundo estágio, sob suposições muito restritivas que quase nunca se aplicam na prática. Esteja ciente de que a prova formal da inconsistência da regressão proibida é bastante elaborada, se bem me lembro.
Para uma discussão mais detalhada, dê uma olhada nas excelentes notas de aula de Kit Baum sobre esse tópico. No slide 7, ele discute o uso do modelo de probabilidade linear no contexto 2SLS.
Finalmente, se você realmente deseja usar o probit porque deseja estimativas mais eficientes, existe outra maneira também mencionada em Wooldridge (2010) "Análise Econométrica de Seção Transversal e Dados de Painel". A resposta vinculada acima inclui, eu repito aqui para ser completo. Como exemplo aplicado, veja Adams et al. (2009) que usam um procedimento de três etapas, como segue:
Este procedimento não se enquadra no problema de regressão proibido, mas fornece estimativas mais eficientes do seu parâmetro de interesse.
fonte