Configuração de dados para diferenças nas diferenças

Qual configuração está correta para uma diferença no modelo de regressão de diferença usando

$Y_{ist} = \alpha +\gamma_s*T + \lambda d_t + \delta*(T*d_t)+ \epsilon_{ist}$

onde T é um manequim igual a 1 se a observação for do grupo de tratamento ed é um manequim igual a 1 no período após o tratamento ter ocorrido

1) Amostras aleatórias de cada grupo e tempo (ou seja, 4 amostras aleatórias)

2) Dados do painel em que as mesmas unidades são rastreadas nos dois períodos?

Isso importa e, se não, o OLS pode ser usado em ambos os casos?

regression econometrics difference-in-difference B_Miner
fonte

Eu não vi (1) feito - a análise sempre parece = (2). Não sei por que você faria (1). Mas eu não vi muitos estudos de DID.

charles

Os exemplos de 1 são mostrados na seção 13.2 de Econometria Introdutória de Wooldridge

B_Miner

Um pressuposto chave da diferença nas diferenças (DID) é que ambos os grupos têm uma tendência comum na variável resultado antes do tratamento. Isso é importante para argumentar que a mudança para o grupo tratado é por causa do tratamento e não porque os dois grupos já eram diferentes um do outro, para começar.

Se você experimentar pessoas diferentes antes e depois do tratamento, isso enfraquecerá o argumento, a menos que suas amostras dos grupos de tratamento e controle sejam realmente aleatórias e grandes. Portanto, pode ser que alguém lhe pergunte: "Como você pode garantir que o efeito seja devido ao tratamento e não apenas porque você amostrou pessoas diferentes?" - e isso será difícil de responder. É possível evitar essa pergunta usando os dados do painel, porque lá você acompanha as mesmas unidades estatísticas ao longo do tempo e, geralmente, essa é a abordagem mais sólida.

Para responder à sua última pergunta: sim, os dados são importantes, mas você certamente pode usar o OLS para estimar sua equação acima. Uma coisa importante que no passado costumava ser negligenciada é a estimativa correta dos erros padrão. Se você não corrigi-los, a correlação serial os subestimará em boa quantidade e você encontrará efeitos significativos, mesmo que provavelmente não deva. Como referência e sugestões de como lidar com esse problema, consulte Bertrand et al. (2004) "Quanto devemos confiar nas estimativas das diferenças nas diferenças?" .

Como última coisa, se você tiver dados agregados (por exemplo, no nível estadual) ou se puder agregar facilmente os seus e se quiser usar um método econométrico mais recente que o DID, dê uma olhada em Abadie et al. (2010) "Métodos de controle sintético para estudos de caso comparativos" . O método de controle sintético é cada vez mais utilizado nas pesquisas atuais e existem rotinas bem documentadas para R e Stata. Talvez isso seja algo interessante para você também.

Andy
fonte

Isso é ótimo, Andy! Posso resumir dizendo que ambas as configurações de dados são aceitáveis, mas que os dados do painel são mais fáceis de argumentar sobre as suposições? Que ambos podem ser ajustados pelo OLS, mas que os erros padrão (especialmente a configuração de dados do painel que eu presumo) são questionáveis devido à possível correlação serial. Uma configuração de painel com o Newey West SE seria uma boa solução?

precisa saber é

Sim, para o primeiro tipo de dados, você precisa de mais e fortes suposições. Para os erros padrão, a correção Newey West deve funcionar. Na verdade, é análogo a um dos métodos de correção propostos por Bertrand et al. (eles usam erros padrão em cluster). Um método mais recente usa o bootstrap que funciona muito bem (consulte rbnz.govt.nz/research_and_publications/seminars_and_workshops/… ). Espero que isto ajude!

Andy

Configuração de dados para diferenças nas diferenças

Respostas: