Em Econometria na maior parte inofensiva: o companheiro de um empirista (Angrist e Pischke, 2009: página 209), li o seguinte:
(...) De fato, o 2SLS recém-identificado (digamos, o estimador simples de Wald) é aproximadamente imparcial . Isso é difícil de mostrar formalmente porque o 2SLS recém-identificado não tem momentos (ou seja, a distribuição da amostra tem caudas de gordura). No entanto, mesmo com instrumentos fracos, o 2SLS recém-identificado está aproximadamente centrado onde deveria estar. Dizemos, portanto, que o 2SLS recém-identificado é isento de mediana. (...)
Embora os autores digam que o 2SLS recém-identificado é isento de mediana, eles não o provam nem fornecem uma referência a uma prova . Na página 213, eles mencionam a proposição novamente, mas sem referência a uma prova. Além disso, não encontro motivação para a proposição em suas notas de aula sobre variáveis instrumentais do MIT , página 22.
O motivo pode ser que a proposição é falsa, pois a rejeita em uma nota em seu blog . No entanto, o 2SLS recém-identificado é aproximadamente isento de mediana, eles escrevem. Eles o motivam usando um pequeno experimento de Monte-Carlo, mas não fornecem prova analítica ou expressão em forma fechada do termo de erro associado à aproximação. De qualquer forma, essa foi a resposta dos autores ao professor Gary Solon, da Michigan State University, que fez o comentário de que o recém-identificado 2SLS não é isento de mediana.
Pergunta 1: Como você prova que o 2SLS recém-identificado não é isento de mediana como Gary Solon argumenta?
Pergunta 2: Como você prova que o 2SLS recém-identificado é aproximadamente isento de mediana, como argumentam Angrist e Pischke?
Para a pergunta 1, estou procurando um contra-exemplo. Para a Questão 2, estou (principalmente) procurando uma prova ou uma referência a uma prova.
Também estou procurando uma definição formal de isenção de mediana neste contexto. Eu entendo o conceito da seguinte forma: Um estimador θ ( X 1 : n ) de θ com base em um conjunto X 1 : n de n variáveis aleatórias é mediana-imparcial para θ se e somente se a distribuição de θ ( X 1 : n ) tem mediana θ .
Notas
Em um modelo recém-identificado, o número de regressores endógenos é igual ao número de instrumentos.
A estrutura que descreve um modelo de variáveis instrumentais recém-identificado pode ser expressa da seguinte maneira: O modelo causal de interesse e a equação do primeiro estágio é onde X é um k x n + 1 matriz descrevendo k regressores endógenos, e onde as variáveis instrumentais é descrita por um k x n + 1 matriz Z . Aqui W
descreve apenas um número de variáveis de controle (por exemplo, adicionadas para melhorar a precisão); e e v são termos de erro.Nós estimamos em ( 1 ) usando MQ2E: Em primeiro lugar, regressão X em Z controlo para W e adquirem os valores previstos X ; isso é chamado de primeiro estágio. Em segundo lugar, regredir Y em X controlo para W ; isso é chamado de segundo estágio. O coeficiente estimado em X na segunda fase é nossos MQ2E estimar de β .
No caso mais simples, temos o modelo e instrumentamos o regressor endógeno x i com z i . Neste caso, a estimativa de MQ2E β é β MQ2E = s Z Y
em quesABindica a covariância amostra entreAeB. Podemos simplificar(2):ondeˉy=Σiyi/n,ˉx=Σixi/neˉu=Σiui/n, ondené o número de observações.Eu fiz uma pesquisa bibliográfica usando as palavras "recém-identificado" e "mediano-imparcial" para encontrar referências que respondam às perguntas 1 e 2 (veja acima). Eu não encontrei nenhum. Todos os artigos que encontrei (veja abaixo) fazem referência a Angrist e Pischke (2009: página 209, 213) ao afirmar que o 2SLS recém-identificado é isento de mediana.
- Jakiela, P., Miguel, E., e Te Velde, VL (2015). Você ganhou: estimar o impacto do capital humano nas preferências sociais. Experimental Economics , 18 (3), 385-407.
- An. W. (2015). Estimativas de variáveis instrumentais de efeitos de pares em redes sociais. Social Science Research , 50, 382-394.
- Vermeulen, W. & Van Ommeren, J. (2009). O planejamento do uso da terra molda as economias regionais? Uma análise simultânea da oferta de moradias, migração interna e crescimento do emprego local na Holanda. Jornal da Economia da Habitação , 18 (4), 294-310.
- Aidt, TS e Leon, G. (2016). A janela democrática da oportunidade: Evidências de tumultos na África Subsaariana. Journal of Conflict Resolution , 60 (4), 694-717.
Respostas:
Nos estudos de simulação, o termo viés mediano refere-se ao valor absoluto dos desvios de um estimador em relação ao seu valor verdadeiro (que você conhece neste caso porque é uma simulação e escolhe o valor verdadeiro). Você pode ver um documento de trabalho de Young (2017) que define viés mediano como este na tabela 15, ou Andrews e Armstrong (2016) que plotam gráficos de viés mediano para diferentes estimadores na figura 2.
Parte da confusão (também na literatura) parece vir do fato de que existem dois problemas subjacentes separados:
O problema de ter um instrumento fraco em um cenário recém-identificado é muito diferente de ter muitos instrumentos em que alguns são fracos; no entanto, os dois problemas são discutidos algumas vezes.
Primeiro de tudo, vamos considerar a relação entre os estimadores que estamos falando aqui. Theil (1953) em "Estimativa e Correlação simultânea na equação Sistemas completos" introduzido o chamado -klass estimador: β = [ X ' ( I - κ M Z ) X ] - 1 [ X ' ( I - κ M Z ) y ) ]κ
comMZ=I−Z(Z′Z)−1Z′
Assintoticamente, LIML e 2SLS têm a mesma distribuição, no entanto, em amostras pequenas, isso pode ser muito diferente. Este é especialmente o caso quando temos muitos instrumentos e se alguns são fracos. Nesse caso, o LIML executa melhor que o 2SLS. LIML aqui demonstrou ser mediano e imparcial. Esse resultado é resultado de vários estudos de simulação. Normalmente, os trabalhos que indicam esse resultado se referem a Rothberg (1983) "Propriedades assintóticas de alguns estimadores em modelos estruturais", Sawa (1972) ou Anderson et al. (1982) .
Steve Pischke fornece uma simulação para esse resultado em suas notas de 2016 no slide 17, mostrando a distribuição de OLS, LIML e 2SLS com 20 instrumentos, dos quais apenas um é realmente útil. O valor do coeficiente verdadeiro é 1. Você vê que LIML está centrado no valor verdadeiro enquanto 2SLS é inclinado para OLS.
Agora, o argumento parece ser o seguinte: dado que o LIML pode ser demonstrado como isento de mediana e que, no caso recém-identificado (uma variável endógena, um instrumento), o LIML e o 2SLS são equivalentes, o 2SLS também deve ser isento de mediana.
No entanto, parece que as pessoas novamente estão misturando o caso "instrumento fraco" e o "muitos instrumentos fracos" porque, no cenário recém-identificado, LIML e 2SLS serão tendenciosos quando o instrumento estiver fraco. Não vi nenhum resultado em que tenha sido demonstrado que o LIML é imparcial no caso recém-identificado quando o instrumento é fraco e não acho que isso seja verdade. Uma conclusão semelhante sai Angrist e Pischke de (2009) resposta para Gary Solo na página 2, onde eles simulam o viés da OLS, MQ2E e LIML ao mudar a força do instrumento.
Para coeficientes muito pequenos do primeiro estágio <0,1 (mantendo o erro padrão fixo), ou seja, baixa força do instrumento, o 2SLS recém identificado (e, portanto, o LIML recém identificado) está muito mais próximo do limite de probabilidade do estimador OLS em comparação com o valor do coeficiente verdadeiro de 1.
Uma vez que o coeficiente do primeiro estágio está entre 0,1 e 0,2, eles observam que a estatística F do primeiro estágio está acima de 10 e, portanto, não há mais nenhum problema fraco de instrumento, de acordo com a regra geral F> 10 de Stock e Yogo (2005). Nesse sentido, não vejo como o LIML deve ser uma correção para um problema fraco do instrumento no caso recém-identificado. Observe também que i) LIML tende a ser mais disperso e requer uma correção de seus erros padrão (ver Bekker, 1994) e ii) se o seu instrumento é realmente fraco, você não encontrará nada no segundo estágio nem com 2SLS nem LIML porque os erros padrão serão muito grandes.
fonte