Devo executar regressões separadas para cada comunidade ou a comunidade pode simplesmente ser uma variável de controle em um modelo agregado?

11

Estou executando um modelo OLS com uma variável de índice de ativos contínua como o DV. Meus dados são agregados de três comunidades semelhantes em estreita proximidade geográfica entre si. Apesar disso, achei importante usar a comunidade como uma variável de controle. Como se vê, a comunidade é significativa no nível de 1% (t-score de -4,52). A comunidade é uma variável nominal / categórica codificada como 1,2,3 para 1 de 3 comunidades diferentes.

Minha pergunta é se esse alto grau de significância significa que eu deveria estar fazendo regressões nas comunidades individualmente, e não como uma agregação. Caso contrário, o uso da comunidade como variável de controle está essencialmente fazendo isso?

cadamt
fonte
Faria sentido usar um modelo hierárquico com a comunidade como um efeito aleatório? As comunidades não são sua principal preocupação, são? Ao usar um modelo hierárquico, você compartilha a força.
Wayne

Respostas:

14

A pergunta sugere uma comparação de três modelos relacionados. Para tornar a comparação clara, seja a variável dependente, seja o código da comunidade atual e defina e como indicadores das comunidades 1 e 2, respectivamente. (Isso significa que para a comunidade 1 e para as comunidades 2 e 3; para a comunidade 2 e para as comunidades 1 e 3.)X { 1 , 2 , 3 } X 1 X 2 X 1 = 1 X 1 = 0 X 2 = 1 X 2 = 0YX{1,2,3}X1X2X1=1X1=0X2=1X2=0

A análise atual pode ser uma das seguintes:

Y=α+βX+ε(first model)

ou

Y=α+β1X1+β2X2+ε(second model).

Nos dois casos, representa um conjunto de variáveis ​​aleatórias independentes distribuídas de forma idêntica e com expectativa zero. O segundo modelo provavelmente é o pretendido, mas o primeiro modelo será aquele que se encaixará na codificação descrita na pergunta.ε

A saída da regressão OLS é um conjunto de parâmetros ajustados (indicados com "chapéus" em seus símbolos), juntamente com uma estimativa da variação comum dos erros. No primeiro modelo, há um teste t para comparar com . No segundo modelo, existem dois testes t: um para comparar com e outro para comparar com . Como a pergunta relata apenas um teste t, vamos começar examinando o primeiro modelo. 0 ^ β 1 0 ^ β 2 0β^0β1^0β2^0

Concluindo que é significativamente diferente de , podemos fazer uma estimativa de = = para qualquer comunidade:β^0YE[α+βX+ε]α+βX

para a comunidade 1, e a estimativa é igual a ;X=1α+β

para a comunidade 2, e a estimativa é igual a ; eX=2α+2β

para a comunidade 3, e a estimativa é igual a . X=3α+3β

Em particular, o primeiro modelo força os efeitos da comunidade em progressão aritmética. Se a codificação da comunidade é apenas uma maneira arbitrária de se diferenciar entre as comunidades, essa restrição interna é igualmente arbitrária e provavelmente errada.

É instrutivo realizar a mesma análise detalhada das previsões do segundo modelo:

Para a comunidade 1, em que e , o valor previsto de é igual a . Especificamente,X1=1X2=0Yα+β1

Y(community 1)=α+β1+ε.

Para a comunidade 2, em que e , o valor previsto de é igual a . Especificamente,X1=0X2=1Yα+β2

Y(community 2)=α+β2+ε.

Para a comunidade 3, em que , o valor previsto de é igual a . Especificamente,X1=X2=0Yα

Y(community 3)=α+ε.

Os três parâmetros efetivamente dão ao segundo modelo total liberdade para estimar os três valores esperados de separadamente. Y Os testes t avaliam se (1) ; isto é, se existe uma diferença entre as comunidades 1 e 3; e (2) ; isto é, se existe uma diferença entre as comunidades 2 e 3. Além disso, pode-se testar o "contraste" com um teste t para verificar se as comunidades 2 e 1 diferem: isso funciona porque a diferença é = .β1=0β2=0β2β1(α+β2)(α+β1)β2β1

Agora podemos avaliar o efeito de três regressões separadas. Eles seriam

Y(community 1)=α1+ε1,

Y(community 2)=α2+ε2,

Y(community 3)=α3+ε3.

Comparando isso com o segundo modelo, vemos que deve concordar com , deve concordar com e deve concordar com . Portanto, em termos de flexibilidade dos parâmetros de ajuste, ambos os modelos são igualmente bons. No entanto, as suposições neste modelo sobre os termos de erro são mais fracas. Todo o deve ser independente e distribuído de forma idêntica (iid); todo deve ser iid, e todo deve ser iid, mas nada é assumido sobre as relações estatísticas entre as regressões separadas. α + β 1 α 2 α + β 2 α 3 α ε 1 ε 2 ε 3α1α+β1α2α+β2α3αε1ε2ε3 Regressões separadas, portanto, permitem flexibilidade adicional:

  • Mais importante ainda, a distribuição do podem diferir daquela do que pode ser diferente da do .ε 2 ε 3ε1ε2ε3

  • Em algumas situações, o pode estar correlacionado com o . Nenhum desses modelos lida explicitamente com isso, mas o terceiro modelo (regressões separadas) pelo menos não será afetado adversamente por ele.ε jεiεj

Essa flexibilidade adicional significa que os resultados do teste t para os parâmetros provavelmente diferem entre o segundo e o terceiro modelo. (Porém, não deve resultar em estimativas diferentes de parâmetros.)

Para verificar se são necessárias regressões separadas , faça o seguinte:

Encaixe o segundo modelo. Plote os resíduos contra a comunidade, por exemplo, como um conjunto de gráficos de caixas lado a lado ou um trio de histogramas ou até como três gráficos de probabilidade. Procure evidências de diferentes formas distributivas e, especialmente, de variações consideravelmente diferentes. Se essa evidência estiver ausente, o segundo modelo deve estar ok. Se estiver presente, são necessárias regressões separadas.

Quando os modelos são multivariados - ou seja, incluem outros fatores - é possível uma análise semelhante, com conclusões semelhantes (mas mais complicadas). Em geral, executar regressões separadas equivale a incluir todas as possíveis interações bidirecionais com a variável da comunidade (codificadas como no segundo modelo, não no primeiro) e permitir diferentes distribuições de erros para cada comunidade.

whuber
fonte
-3
  • seleção de modelo (IMHO) insira a descrição da imagem aquipode ser recomendada. Como os modelos complexos (inclinação separada) terão a penalidade mais forte, os modelos interpretáveis ​​mais concisos e fáceis serão "melhores".
Ivan Kshnyasev
fonte
1
Não está totalmente claro o que você está recomendando aqui ou como esta tabela se relaciona.
Scortchi - Reinstate Monica