O procedimento de efeitos fixos de Mundlak é aplicável à regressão logística com manequins?

12

Eu tenho um conjunto de dados com 8000 clusters e 4 milhões de observações. Infelizmente, meu software estatístico, Stata, roda lentamente ao usar sua função de dados em painel para regressão logística: xtlogitmesmo com uma subamostra de 10%.

No entanto, ao usar a logitfunção não painel , os resultados aparecem muito mais cedo. Portanto, posso me beneficiar do uso logitde dados modificados que respondem por efeitos fixos.

Acredito que esse procedimento seja cunhado como o "procedimento de efeitos fixos de Mundlak" (Mundlak, Y. 1978. Agrupamento de séries temporais e dados de seções transversais. Econometrica, 46 (1), 69-85).

Encontrei uma explicação intuitiva desse procedimento em um artigo de Antonakis, J., Bendahan, S., Jacquart, P. e Lalive, R. (2010). Sobre reivindicações causais: Uma revisão e recomendações. The Leadership Quarterly, 21 (6). 1086-1120. Eu cito:

Uma maneira de contornar o problema dos efeitos fixos omitidos e ainda incluir as variáveis ​​do Nível 2 é incluir as médias de cluster de todas as covariáveis ​​do Nível 1 no modelo estimado (Mundlak, 1978). Os meios de cluster podem ser incluídos como regressores ou subtraídos (isto é, centralização da média de cluster) da covariável de nível 1. Os meios de cluster são invariantes no cluster (e variam entre os clusters) e permitem uma estimativa consistente dos parâmetros do Nível 1, como se os efeitos fixos tivessem sido incluídos (veja Rabe-Hesketh & Skrondal, 2008).

Portanto, a centralização média do cluster parece ideal e prática para resolver meu problema computacional. No entanto, esses trabalhos parecem estar voltados para a regressão linear (OLS).

Esse método de centralização média do cluster também é aplicável à "replicação" da regressão logística binária de efeitos fixos?

Uma pergunta mais técnica que deveria resultar na mesma resposta seria: o xtlogit depvar indepvars, feconjunto de dados A é igual ao logit depvar indepvarsconjunto de dados B quando o conjunto de dados B é a versão centralizada da média do cluster do conjunto de dados A?

Uma dificuldade adicional que encontrei nessa centralização média do cluster é como lidar com manequins. Como os manequins são 0 ou 1, eles são idênticos na regressão de efeitos aleatórios e fixos? Eles não devem estar "centralizados"?

Tom
fonte

Respostas:

9

A primeira diferenciação ou dentro de transformações como degradação não está disponível em modelos como logit, porque no caso de modelos não lineares, esses truques não removem os efeitos fixos não observados. Mesmo se você tivesse um conjunto de dados menor no qual era possível incluir manequins individuais N-1 para estimar diretamente os efeitos fixos, isso levaria a estimativas tendenciosas, a menos que a dimensão temporal de seus dados seja grande. A eliminação dos efeitos fixos no logit do painel, portanto, não segue diferenças nem degradação e só é possível devido à forma funcional do logit. Se você estiver interessado nos detalhes, consulte estas notas de Söderbom na página 30 do PDF (explicação sobre por que a degradação / primeira diferenciação no logit / probit não ajuda) e na página 42 (introdução do estimador de logit do painel).

Outro problema é que xtlogit, em geral, os modelos de logit de painel não estimam diretamente os efeitos fixos necessários para calcular os efeitos marginais. Sem eles, será muito estranho interpretar seus coeficientes, o que pode ser decepcionante depois de rodar o modelo por horas e horas.

Com um conjunto de dados tão grande e as dificuldades conceituais mencionadas anteriormente no logit do painel FE, eu ficaria com o modelo de probabilidade linear. Espero que esta resposta não o desaponte, mas existem muitas boas razões para dar esse conselho: o LPM é muito mais rápido, os coeficientes podem ser interpretados imediatamente (isso vale principalmente se você tiver efeitos de interação em seu modelo, porque a interpretação de seus coeficientes em alterações de modelos não lineares!), os efeitos fixos são facilmente controlados e é possível ajustar os erros padrão para autocorrelação e clusters sem que os tempos de estimativa aumentem além da razão. Eu espero que isso ajude.

Andy
fonte
1
Não é uma solução, mas é uma resposta. Obrigado :)
Tom
1
Ponto pequeno: p20 desses slides é o seu argumento, mas um modelo de correção de Mundlak, também conhecido como 'efeitos aleatórios correlacionados', é descrito na p47 e parece não ter essas ressalvas.
conjugateprior
1

Eu acredito que o logit condicional ("clogit" no Stata), é um estimador de painel de logit de efeito fixo alternativo.

http://www3.nd.edu/~rwilliam/stats3/Panel03-FixedEffects.pdf

Francesco
fonte
5
Bem vindo ao site! Penso que esta não é uma resposta aceitável, uma vez que a pergunta é: como evitar a regressão logística condicional (efeitos fixos) por regressão logística transversal modificada, com o objetivo de acelerar a estimativa. Como sua referência indica (no topo da página 3) "podemos usar Stata's clogitcomando ou o xtlogit, fecomando para fazer um efeito fixo análise logit. Ambos dão os mesmos resultados. (Na verdade, eu acredito que xtlogit, ferealmente chama clogit)." A O OP já sabia com xtlogit, febase no penúltimo parágrafo.
Randel 24/09
0

Allison discutiu esse problema em Allison, (2009), "Modelos de regressão de efeitos fixos", p.32f.

Allison argumenta que não é possível estimar um modelo incondicional com máxima probabilidade. Isso ocorre porque os modelos se tornam tendenciosos devido ao "problema de parâmetros incidentais". Em vez disso, ele recomenda o uso de um modelo de logit condicional (Chamberlain, 1980). Isso é realizado condicionando a função de probabilidade no número de eventos observados para cada indivíduo.

Cookie Monster
fonte