O 2SLS apenas identificado é mediano?

13

Em Econometria na maior parte inofensiva: o companheiro de um empirista (Angrist e Pischke, 2009: página 209), li o seguinte:

(...) De fato, o 2SLS recém-identificado (digamos, o estimador simples de Wald) é aproximadamente imparcial . Isso é difícil de mostrar formalmente porque o 2SLS recém-identificado não tem momentos (ou seja, a distribuição da amostra tem caudas de gordura). No entanto, mesmo com instrumentos fracos, o 2SLS recém-identificado está aproximadamente centrado onde deveria estar. Dizemos, portanto, que o 2SLS recém-identificado é isento de mediana. (...)

Embora os autores digam que o 2SLS recém-identificado é isento de mediana, eles não o provam nem fornecem uma referência a uma prova . Na página 213, eles mencionam a proposição novamente, mas sem referência a uma prova. Além disso, não encontro motivação para a proposição em suas notas de aula sobre variáveis ​​instrumentais do MIT , página 22.

O motivo pode ser que a proposição é falsa, pois a rejeita em uma nota em seu blog . No entanto, o 2SLS recém-identificado é aproximadamente isento de mediana, eles escrevem. Eles o motivam usando um pequeno experimento de Monte-Carlo, mas não fornecem prova analítica ou expressão em forma fechada do termo de erro associado à aproximação. De qualquer forma, essa foi a resposta dos autores ao professor Gary Solon, da Michigan State University, que fez o comentário de que o recém-identificado 2SLS não é isento de mediana.

Pergunta 1: Como você prova que o 2SLS recém-identificado não é isento de mediana como Gary Solon argumenta?

Pergunta 2: Como você prova que o 2SLS recém-identificado é aproximadamente isento de mediana, como argumentam Angrist e Pischke?

Para a pergunta 1, estou procurando um contra-exemplo. Para a Questão 2, estou (principalmente) procurando uma prova ou uma referência a uma prova.

Também estou procurando uma definição formal de isenção de mediana neste contexto. Eu entendo o conceito da seguinte forma: Um estimador θ ( X 1 : n ) de θ com base em um conjunto X 1 : n de n variáveis aleatórias é mediana-imparcial para θ se e somente se a distribuição de θ ( X 1 : n ) tem mediana θ .θ^(X1:n)θX1:nnθθ^(X1:n)θ


Notas

  1. Em um modelo recém-identificado, o número de regressores endógenos é igual ao número de instrumentos.

  2. A estrutura que descreve um modelo de variáveis ​​instrumentais recém-identificado pode ser expressa da seguinte maneira: O modelo causal de interesse e a equação do primeiro estágio é onde X é um k x n + 1 matriz descrevendo k regressores endógenos, e onde as variáveis instrumentais é descrita por um k x n + 1 matriz Z . Aqui W

    (1){Y=Xβ+Wγ+uX=Zδ+Wζ+v
    Xk×n+1kk×n+1ZWdescreve apenas um número de variáveis ​​de controle (por exemplo, adicionadas para melhorar a precisão); e e v são termos de erro.uv
  3. Nós estimamos em ( 1 ) usando MQ2E: Em primeiro lugar, regressão X em Z controlo para W e adquirem os valores previstos X ; isso é chamado de primeiro estágio. Em segundo lugar, regredir Y em X controlo para W ; isso é chamado de segundo estágio. O coeficiente estimado em X na segunda fase é nossos MQ2E estimar de β .β(1)XZWX^YX^WX^β

  4. No caso mais simples, temos o modelo e instrumentamos o regressor endógeno x i com z i . Neste caso, a estimativa de MQ2E β é β MQ2E = s Z Y

    yi=α+βxi+ui
    xiziβem quesABindica a covariância amostra entreAeB. Podemos simplificar(2):
    (2)β^2SLS=sZYsZX,
    sABAB(2) ondeˉy=Σiyi/n,ˉx=Σixi/neˉu=Σiui/n, ondené o número de observações.
    (3)β^2SLS=i(yiy¯)zii(xix¯)zi=β+i(uiu¯)zii(xix¯)zi
    y¯=iyi/nx¯=ixi/nu¯=iui/nn
  5. Eu fiz uma pesquisa bibliográfica usando as palavras "recém-identificado" e "mediano-imparcial" para encontrar referências que respondam às perguntas 1 e 2 (veja acima). Eu não encontrei nenhum. Todos os artigos que encontrei (veja abaixo) fazem referência a Angrist e Pischke (2009: página 209, 213) ao afirmar que o 2SLS recém-identificado é isento de mediana.

    • Jakiela, P., Miguel, E., e Te Velde, VL (2015). Você ganhou: estimar o impacto do capital humano nas preferências sociais. Experimental Economics , 18 (3), 385-407.
    • An. W. (2015). Estimativas de variáveis ​​instrumentais de efeitos de pares em redes sociais. Social Science Research , 50, 382-394.
    • Vermeulen, W. & Van Ommeren, J. (2009). O planejamento do uso da terra molda as economias regionais? Uma análise simultânea da oferta de moradias, migração interna e crescimento do emprego local na Holanda. Jornal da Economia da Habitação , 18 (4), 294-310.
    • Aidt, TS e Leon, G. (2016). A janela democrática da oportunidade: Evidências de tumultos na África Subsaariana. Journal of Conflict Resolution , 60 (4), 694-717.
Elias
fonte
2
Eu não poderia responder isso com uma prova formal, mas com alguns estudos de simulação mostrando que o LIML é mediano imparcial (mais definição) e que o LIML e o 2SLS com uma variável endógena e um instrumento têm a mesma distribuição de amostra pequena (portanto, se o LIML neste o caso é isento de mediana, o mesmo ocorre com 2SLS). Isso seria suficiente para responder à sua pergunta?
Andy
@ Andy Essa seria uma resposta muito boa! Talvez suficiente, dependendo do que os outros usuários possam dizer. Provavelmente é suficiente, pois acho que não há provas da proposição de que o 2SLS recém identificado seja aproximadamente isento de mediana. Seria bom com um contra-exemplo mostrando que o 2SLS recém-identificado não é isento de mediana; mas acho que é possível (mas talvez difícil) inventar um contra-exemplo.
Elias
Por aproximadamente imparcial, você quer dizer que o viés passa a zero como uma função do número de observações, como 1 / n ou 1 / n ^ 2, etc?
Igor
@Igor A frase "aproximadamente sem mediana" não é usada por mim. Como não sei o que significa "imparcialmente a mediana" formalmente, não posso responder à sua pergunta. Mas o que você parece estar pensando é em um estimador sendo assintoticamente imparcial.
Elias

Respostas:

6

Nos estudos de simulação, o termo viés mediano refere-se ao valor absoluto dos desvios de um estimador em relação ao seu valor verdadeiro (que você conhece neste caso porque é uma simulação e escolhe o valor verdadeiro). Você pode ver um documento de trabalho de Young (2017) que define viés mediano como este na tabela 15, ou Andrews e Armstrong (2016) que plotam gráficos de viés mediano para diferentes estimadores na figura 2.

Parte da confusão (também na literatura) parece vir do fato de que existem dois problemas subjacentes separados:

  1. instrumentos fracos
  2. muitos instrumentos (potencialmente) fracos

O problema de ter um instrumento fraco em um cenário recém-identificado é muito diferente de ter muitos instrumentos em que alguns são fracos; no entanto, os dois problemas são discutidos algumas vezes.

Primeiro de tudo, vamos considerar a relação entre os estimadores que estamos falando aqui. Theil (1953) em "Estimativa e Correlação simultânea na equação Sistemas completos" introduzido o chamado -klass estimador: β = [ X ' ( I - κ M Z ) X ] - 1 [ X ' ( I - κ M Z ) y ) ]κ

β^=[X(IκMZ)X]1[X(IκMZ)y)]

com MZ=IZ(ZZ)1Z

y=Xβ+uX=Zπ+e.

κκ=0κ=1κdet(XXκXMZX))=0

Assintoticamente, LIML e 2SLS têm a mesma distribuição, no entanto, em amostras pequenas, isso pode ser muito diferente. Este é especialmente o caso quando temos muitos instrumentos e se alguns são fracos. Nesse caso, o LIML executa melhor que o 2SLS. LIML aqui demonstrou ser mediano e imparcial. Esse resultado é resultado de vários estudos de simulação. Normalmente, os trabalhos que indicam esse resultado se referem a Rothberg (1983) "Propriedades assintóticas de alguns estimadores em modelos estruturais", Sawa (1972) ou Anderson et al. (1982) .

Steve Pischke fornece uma simulação para esse resultado em suas notas de 2016 no slide 17, mostrando a distribuição de OLS, LIML e 2SLS com 20 instrumentos, dos quais apenas um é realmente útil. O valor do coeficiente verdadeiro é 1. Você vê que LIML está centrado no valor verdadeiro enquanto 2SLS é inclinado para OLS. enter image description here

Agora, o argumento parece ser o seguinte: dado que o LIML pode ser demonstrado como isento de mediana e que, no caso recém-identificado (uma variável endógena, um instrumento), o LIML e o 2SLS são equivalentes, o 2SLS também deve ser isento de mediana.

No entanto, parece que as pessoas novamente estão misturando o caso "instrumento fraco" e o "muitos instrumentos fracos" porque, no cenário recém-identificado, LIML e 2SLS serão tendenciosos quando o instrumento estiver fraco. Não vi nenhum resultado em que tenha sido demonstrado que o LIML é imparcial no caso recém-identificado quando o instrumento é fraco e não acho que isso seja verdade. Uma conclusão semelhante sai Angrist e Pischke de (2009) resposta para Gary Solo na página 2, onde eles simulam o viés da OLS, MQ2E e LIML ao mudar a força do instrumento. enter image description here

Para coeficientes muito pequenos do primeiro estágio <0,1 (mantendo o erro padrão fixo), ou seja, baixa força do instrumento, o 2SLS recém identificado (e, portanto, o LIML recém identificado) está muito mais próximo do limite de probabilidade do estimador OLS em comparação com o valor do coeficiente verdadeiro de 1.

Uma vez que o coeficiente do primeiro estágio está entre 0,1 e 0,2, eles observam que a estatística F do primeiro estágio está acima de 10 e, portanto, não há mais nenhum problema fraco de instrumento, de acordo com a regra geral F> 10 de Stock e Yogo (2005). Nesse sentido, não vejo como o LIML deve ser uma correção para um problema fraco do instrumento no caso recém-identificado. Observe também que i) LIML tende a ser mais disperso e requer uma correção de seus erros padrão (ver Bekker, 1994) e ii) se o seu instrumento é realmente fraco, você não encontrará nada no segundo estágio nem com 2SLS nem LIML porque os erros padrão serão muito grandes.

Andy
fonte
Thanks for the answer! This made everything much clearer to me.
Elias