Correspondência de pontuação de propensão com dados do painel

13

Eu tenho um conjunto de dados longitudinal de indivíduos e alguns deles foram submetidos a um tratamento e outros não. Todos os indivíduos estão na amostra desde o nascimento até os 18 anos e o tratamento ocorre em alguma idade entre esse intervalo. A idade do tratamento pode variar entre os casos. Usando a correspondência de propensão, eu gostaria de combinar as unidades tratadas e de controle em pares com a correspondência exata no ano de nascimento, para que eu possa acompanhar cada par desde o nascimento até os 18 anos. No total, existem cerca de 150 indivíduos tratados e 4000 não tratados. Após a correspondência, a idéia é usar uma estratégia de diferença de diferenças para estimar o efeito do tratamento.

O problema que enfrento no momento é fazer a correspondência com os dados do painel. Estou usando o psmatch2comando Stata e comparo as características domésticas e individuais usando a correspondência de propensão. Em geral, com os dados do painel, haverá diferentes combinações ótimas para cada idade. Como exemplo: se A é tratado, B e C são controles e todos nasceram em 1980, então A e B podem corresponder em 1980 aos 0 anos de idade, enquanto A e C são correspondidos em 1981 aos 1 anos de idade e assim por diante. . Também A pode ser combinado com seus próprios valores de pré-tratamento de anos anteriores.

Para contornar esse problema, calculei a média de todas as variáveis ​​que variam no tempo, de modo que a correspondência possa identificar indivíduos que são, em média, os mais semelhantes ao longo da duração da amostra e eu faço a correspondência separadamente para cada faixa etária de 0 a 18 anos. Infelizmente, isso ainda corresponde a uma unidade de controle diferente para cada unidade tratada por faixa etária.

Se alguém pudesse me direcionar para um método de correspondência pareada com os dados do painel no Stata, isso seria muito apreciado.

Andy
fonte

Respostas:

9

Basicamente, é necessário criar um conjunto de dados de grande formato com todas as características relevantes para o procedimento de correspondência, executar a correspondência nesse conjunto de dados transversal e, em seguida, usar o ID para identificar o par correspondente no conjunto de dados do painel. Aqui estão mais alguns detalhes:

  1. Use reshapepara criar um conjunto de dados de grande formato. Formate as variáveis ​​de pré-tratamento da maneira que deseja usá-las no procedimento de correspondência. Você pode apenas calcular a média de suas variáveis ​​se tiver várias observações para um indivíduo, mas também criar outras maneiras (também pode manter várias observações das mesmas variáveis, como saúde1, saúde2 e usar todas elas na correspondência ) O objetivo é ter um conjunto de dados com uma observação por indivíduo .

  2. Usando esse conjunto de dados, execute o procedimento de correspondência com psmatch2.

  3. Mesclar as informações sobre os casos correspondentes com o conjunto de dados original. Solte casos que não correspondem, etc. Não tenho certeza dos detalhes aqui, porque não conheço realmente as estatísticas e psmatch2acho que você entendeu.

Usando essas etapas, você pode corresponder casos com base em todas as informações de pré-tratamento e você só tem uma correspondência por unidade de tratamento.

greg
fonte
3
Realmente não sei por que essa postagem foi rejeitada porque essa resposta realmente ajuda. Vou votar novamente. Graças greg!
Andy
5

Não há como fazer isso no Stata ou em qualquer outro software que eu conheça.

Se você estiver tentando corrigir um estimador de correspondência tendenciosa com técnicas de dados em painel, aqui está uma abordagem que pode funcionar. Se você puder supor que a correspondência cuida de alguns, mas não de todo o viés de seleção, mas que o viés permanece em grande parte constante ao longo do tempo, você pode remover a parte invariável do tempo do viés construindo estimativas de correspondência separadas em cada período e analisando A diferença.

ttY0 0

E[Y0 0t|X,D=1]-E[Y0 0t|X,D=0 0]=E[Y0 0t|X,D=1]-E[Y0 0t|X,D=0 0]=BEuumas,
ΔtM=ΔTT+BEuumasΔtM=BEuumasΔtM-ΔtM=ΔTT

Os documentos de Heckman, Ichimura, Smith e Todd 1998 Econometrica e Eichler e Lechner 2002 Labor Economics são exemplos dessa abordagem. Por outro lado, 150 observações tratadas podem não ser suficientes para que essa abordagem funcione.

Dimitriy V. Masterov
fonte
1
Deveria ser possível combinar indivíduos em pares para dados em painel, porque esses dois artigos ( artigo1 , artigo2 ) também o fazem. Infelizmente, os autores não afirmam exatamente como o fizeram. A idéia que você está descrevendo com Heckman et al (1998) é exatamente o motivo do uso de Diff-in-Diff após a correspondência por pares.
Andy
Não está claro para mim que eles estão fazendo correspondência de painel, mas você está certo de que os procedimentos são vagos. Os autores escreveram pscore, o que indica uma certa disposição em ajudar os outros. Talvez um e-mail para eles esclareça as coisas. Relate o que eles dizem. É uma pergunta importante.
Dimitriy V. Masterov
0

Passos:

  1. Como foi mencionado em detalhes por Greg, você pode usar um conjunto de dados transversal, tanto no pré-tratamento quanto em um período de pré-tratamento específico para gerar a correspondência.

  2. Usando o painel inteiro, você atribui variáveis ​​indicadoras para
    a. indivíduo tratado
    b. tratadoPeríodo, este último é igual a zero assim que o tratamento ocorre para o indivíduo tratado.

    Como o ponto em que o periodo tratado muda de 0 para 1 varia entre indivíduos e nunca passa para 1 para não tratado, você deve atribuir o mesmo ponto de partida da correspondência tratada à correspondência não tratada. Isso é intuitivo, mas eu ainda gostaria de ver uma boa referência que justifique essa abordagem que ainda não encontrei.

A configuração da regressão seria:

depvar = treatedIndvidual + treatedPeriod  + treatedIndvidual*treatedPeriod + controls

onde o termo de interação fornece o efeito do tratamento.

Matthias
fonte
-2

Você considerou usar o comando nnmatch ?

Eu uso esse comando e é bastante abrangente. Ele leva em consideração diferentes algoritmos de correspondência e também casos em que o escore de propensão é o mesmo para alguns indivíduos do grupo de controle. Obviamente, o tratamento desse caso depende do algoritmo de correspondência, se você usar o k-vizinho mais próximo ou o kernel ou qualquer outra coisa.

Stat Tistician
fonte
No artigo que você referenciou, não vejo menção aos dados do painel. Você usou isso para os dados do painel? Em caso afirmativo, seja específico e forneça algum código para responder à pergunta da OP.
Metrics
A correspondência exata é mais fácil, mas o nnmatch geral é mais complicado, pois não armazena IDs correspondentes dentro do conjunto de dados atual, mas em um separado. Terminarei com um conjunto de dados para cada faixa etária que precisará ser mesclado aos dados originais. A mesclagem neste caso não funciona porque as características correspondentes não identificam exclusivamente os indivíduos nos dados originais. Infelizmente, isso não fornece uma solução.
Andy