Qual configuração está correta para uma diferença no modelo de regressão de diferença usando
onde T é um manequim igual a 1 se a observação for do grupo de tratamento ed é um manequim igual a 1 no período após o tratamento ter ocorrido
1) Amostras aleatórias de cada grupo e tempo (ou seja, 4 amostras aleatórias)
ou
2) Dados do painel em que as mesmas unidades são rastreadas nos dois períodos?
Isso importa e, se não, o OLS pode ser usado em ambos os casos?
Respostas:
Um pressuposto chave da diferença nas diferenças (DID) é que ambos os grupos têm uma tendência comum na variável resultado antes do tratamento. Isso é importante para argumentar que a mudança para o grupo tratado é por causa do tratamento e não porque os dois grupos já eram diferentes um do outro, para começar.
Se você experimentar pessoas diferentes antes e depois do tratamento, isso enfraquecerá o argumento, a menos que suas amostras dos grupos de tratamento e controle sejam realmente aleatórias e grandes. Portanto, pode ser que alguém lhe pergunte: "Como você pode garantir que o efeito seja devido ao tratamento e não apenas porque você amostrou pessoas diferentes?" - e isso será difícil de responder. É possível evitar essa pergunta usando os dados do painel, porque lá você acompanha as mesmas unidades estatísticas ao longo do tempo e, geralmente, essa é a abordagem mais sólida.
Para responder à sua última pergunta: sim, os dados são importantes, mas você certamente pode usar o OLS para estimar sua equação acima. Uma coisa importante que no passado costumava ser negligenciada é a estimativa correta dos erros padrão. Se você não corrigi-los, a correlação serial os subestimará em boa quantidade e você encontrará efeitos significativos, mesmo que provavelmente não deva. Como referência e sugestões de como lidar com esse problema, consulte Bertrand et al. (2004) "Quanto devemos confiar nas estimativas das diferenças nas diferenças?" .
Como última coisa, se você tiver dados agregados (por exemplo, no nível estadual) ou se puder agregar facilmente os seus e se quiser usar um método econométrico mais recente que o DID, dê uma olhada em Abadie et al. (2010) "Métodos de controle sintético para estudos de caso comparativos" . O método de controle sintético é cada vez mais utilizado nas pesquisas atuais e existem rotinas bem documentadas para R e Stata. Talvez isso seja algo interessante para você também.
fonte