Consistência de 2SLS com variável endógena binária

10

Eu li que o estimador 2SLS ainda é consistente, mesmo com a variável endógena binária ( http://www.stata.com/statalist/archive/2004-07/msg00699.html ). No primeiro estágio, um modelo de tratamento probit será executado em vez de um modelo linear.

Existe alguma prova formal para mostrar que o 2SLS ainda é consistente, mesmo quando o 1º estágio é um modelo probit ou logit?

E se o resultado também for binário? Entendo que, se tivermos um resultado binário e uma variável endógena binária (os primeiro e o segundo estágios são modelos probit / logit binários), imitar o método 2SLS produzirá uma estimativa inconsistente. Existe alguma prova formal para isso? O livro econométrico de Wooldridge tem alguma discussão, mas acho que não há provas rigorosas para mostrar a inconsistência.

data sim;
     do i=1 to 500000;
        iv=rand("normal",0,1);
             x2=rand("normal",0,1);
        x3=rand("normal",0,1);
        lp=0.5+0.8*iv+0.5*x2-0.2*x3;
        T=rand("bernoulli",exp(lp)/(1+exp(lp)));
        Y=-0.8+1.2*T-1.3*x2-0.8*x3+rand("normal",0,1);
        output;
     end;
     run;

****1st stage: logit model ****;
****get predicted values   ****;         
proc logistic data=sim descending;
     model T=IV;
     output out=pred1 pred=p;
     run;

****2nd stage: ols model with predicted values****;
proc reg data=pred1;
     model y=p;
     run;

o coeficiente de p = 1.19984. Eu executo apenas uma simulação, mas com um tamanho de amostra grande.

Vincent
fonte
Você não precisa adicionar link = probit à instrução de modelo?
Mike Hunter

Respostas:

10

Houve uma pergunta semelhante em relação a um primeiro estágio probit e um segundo estágio OLS. Na resposta , forneço um link para notas que contêm uma prova formal da inconsistência dessa regressão, formalmente conhecida como "regressão proibida", como foi denominado por Jerry Hausman. A principal razão para a inconsistência da abordagem probit primeiro estágio / OLS segundo estágio é que nem o operador de expectativas nem o operador de projeções lineares passam por um primeiro estágio não linear. Portanto, os valores ajustados de um probit do primeiro estágio não são correlacionados apenas com o termo de erro do segundo estágio, sob suposições muito restritivas que quase nunca se aplicam na prática. Esteja ciente de que a prova formal da inconsistência da regressão proibida é bastante elaborada, se bem me lembro.

YEu=α+βXEu+ϵEu
YEuXEu
XEu=uma+ZEuπ+ηEu
X^EuXEuXEu


YEu

Para uma discussão mais detalhada, dê uma olhada nas excelentes notas de aula de Kit Baum sobre esse tópico. No slide 7, ele discute o uso do modelo de probabilidade linear no contexto 2SLS.

Finalmente, se você realmente deseja usar o probit porque deseja estimativas mais eficientes, existe outra maneira também mencionada em Wooldridge (2010) "Análise Econométrica de Seção Transversal e Dados de Painel". A resposta vinculada acima inclui, eu repito aqui para ser completo. Como exemplo aplicado, veja Adams et al. (2009) que usam um procedimento de três etapas, como segue:

  1. use probit para regredir a variável endógena no (s) instrumento (s) e variáveis ​​exógenas
  2. use os valores previstos da etapa anterior em um primeiro estágio do OLS junto com as variáveis ​​exógenas (mas sem o instrumental)
  3. faça o segundo estágio como de costume

Este procedimento não se enquadra no problema de regressão proibido, mas fornece estimativas mais eficientes do seu parâmetro de interesse.

Andy
fonte
Olá Andy, obrigado pela sua resposta. Você está sugerindo "inconsistência da abordagem probit first stage / OLS second stage"? Não foi isso que li no link que dei. Diz-se que a abordagem probit do primeiro estágio / OLS segundo estágio é consistente.
Vincent
Não é o que diz o post estatalista. Se você examinar a seção "métodos e fórmula" para o comando treatreg (que agora é chamado etregress) na documentação , verá que o estimador em duas etapas não é 2SLS com um probit primeiro estágio / segundo OLS. Em vez disso, o probit é usado primeiro para obter as taxas de risco que são usadas em uma regressão OLS para obter estimativas consistentes.
Andy
Obrigado Andy. Está ficando interessante. Parece que imitar 2SLS com modelo probit no 1º estágio não está sendo aceito. Vou ler a "proibição da regressão" por razões terapêuticas. A propósito, tentei uma simulação usando SAS e os resultados não parecem ruins para 2SLS com probit 1st / ols 2nd.
Vincent
Estou postando o código na pergunta principal e gostaria de ouvir seus comentários. Obrigado!
Vincent