A diferença nas diferenças há muito é popular como uma ferramenta não experimental, especialmente em economia. Alguém pode fornecer uma resposta clara e não técnica para as seguintes perguntas sobre diferença de diferença.
O que é um estimador de diferença de diferença?
Por que um estimador de diferença de diferença é útil?
Podemos realmente confiar em estimativas de diferença na diferença?
regression
econometrics
difference-in-difference
Graham Cookson
fonte
fonte
Respostas:
O que é uma diferença no estimador de diferenças ADi Yi
diferença nas diferenças (DiD) é uma ferramenta para estimar os efeitos do tratamento comparando as diferenças pré e pós-tratamento no resultado de um grupo de tratamento e controle. Em geral, estamos interessados em estimar o efeito de um tratamento (por exemplo, status sindical, medicação etc.) sobre um resultado (por exemplo, salários, saúde etc.) como em onde são efeitos fixos individuais (características de indivíduos que não mudam ao longo do tempo), são efeitos fixos no tempo, são covariáveis variáveis no tempo, como a idade dos indivíduos e
Para ver o efeito de um tratamento, gostaríamos de saber a diferença entre uma pessoa em um mundo em que ela recebeu o tratamento e uma em que ela não recebe. Obviamente, apenas uma delas é observável na prática. Portanto, procuramos pessoas com as mesmas tendências de pré-tratamento no resultado. Suponhamos que temos dois períodos e dois grupos . Então, supondo que as tendências nos grupos de tratamento e controle continuariam da mesma maneira que antes na ausência de tratamento, podemos estimar o efeito do tratamento comot=1,2 s=A,B
Graficamente, isso seria algo parecido com isto:
Você pode simplesmente calcular esses meios manualmente, ou seja, obter o resultado médio do grupo nos dois períodos e fazer a diferença. Em seguida, obtenha o resultado médio do grupo nos dois períodos e faça a diferença. Então faça a diferença nas diferenças e esse é o efeito do tratamento. No entanto, é mais conveniente fazer isso em uma estrutura de regressão, pois isso permite que vocêA B
Para fazer isso, você pode seguir uma das duas estratégias equivalentes. Gere um manequim do grupo de controle que seja igual a 1 se uma pessoa estiver no grupo e 0, caso contrário, gere um manequim de tempo que seja igual a 1 se e 0, e depois regridetreati A timet t=2
Ou você simplesmente gera um fictício que é igual a um se uma pessoa estiver no grupo de tratamento E o período de tempo é o período de pós-tratamento e é zero caso contrário. Então você regrediráTit
onde é novamente um manequim para o grupo de controle e são manequins de tempo. As duas regressões fornecem os mesmos resultados para dois períodos e dois grupos. A segunda equação é mais geral, embora se estenda facilmente a vários grupos e períodos. Em ambos os casos, é assim que você pode estimar a diferença nas diferenças de um modo que inclua variáveis de controle (eu as deixei de fora das equações acima para não confundi-las, mas você pode simplesmente incluí-las) e obter erros padrão por inferência.γs λt
Por que a diferença no estimador de diferenças é útil?E(Y0it|i,t)=αi+λt E(Y0it|s,t)=γs+λt s
Como afirmado anteriormente, o DiD é um método para estimar os efeitos do tratamento com dados não experimentais. Essa é a característica mais útil. DiD também é uma versão da estimativa de efeitos fixos. Enquanto o modelo de efeitos fixos assume , DiD faz uma suposição semelhante, mas no nível do grupo, . Portanto, o valor esperado do resultado aqui é a soma de um grupo e um efeito no tempo. Então qual a diferença? Para Você não precisa necessariamente de dados em painel, enquanto suas seções transversais repetidos são extraídos da mesma unidade agregada . Isso torna o DiD aplicável a uma matriz mais ampla de dados do que os modelos de efeitos fixos padrão que requerem dados do painel.
Podemos confiar na diferença nas diferenças?
A suposição mais importante em DiD é a suposição de tendências paralelas (veja a figura acima). Nunca confie em um estudo que não mostre graficamente essas tendências! Os artigos da década de 1990 podem ter escapado disso, mas hoje em dia nosso entendimento sobre DiD é muito melhor. Se não houver um gráfico convincente que mostre as tendências paralelas nos resultados do pré-tratamento para os grupos de tratamento e controle, seja cauteloso. Se a suposição de tendências paralelas se mantiver e pudermos descartar com credibilidade quaisquer outras alterações variantes no tempo que possam confundir o tratamento, o DiD é um método confiável.
Outra palavra de cautela deve ser aplicada quando se trata do tratamento de erros padrão. Com muitos anos de dados, você precisa ajustar os erros padrão para autocorrelação. No passado, isso foi negligenciado, mas desde Bertrand et al. (2004) "Quanto devemos confiar nas estimativas das diferenças nas diferenças?" sabemos que isso é um problema. No artigo, eles fornecem vários remédios para lidar com a autocorrelação. O mais fácil é agrupar no identificador de painel individual, o que permite a correlação arbitrária dos resíduos entre as séries temporais individuais. Isso corrige a autocorrelação e a heterocedasticidade.
Para referências adicionais, consulte estas notas de aula de Waldinger e Pischke .
fonte
A Wikipedia tem uma entrada decente sobre esse assunto , mas por que não usar apenas a regressão linear permitindo interações entre suas variáveis independentes de interesse? Isso parece mais interpretável para mim. Em seguida, você pode ler sobre a análise de pistas simples (no livro de Cohen et al. Grátis no Google Livros) se suas variáveis de interesse forem quantitativas.
fonte
É uma técnica amplamente usada em econometria para examinar a influência de qualquer evento exógeno em uma série temporal. Você escolhe dois grupos separados de dados relacionados ao antes e depois do evento estudado. Uma boa referência para aprender mais é o livro Introdução à Econometria, de Wooldridge.
fonte
Cuidado:
fonte