Estou executando um modelo OLS com uma variável de índice de ativos contínua como o DV. Meus dados são agregados de três comunidades semelhantes em estreita proximidade geográfica entre si. Apesar disso, achei importante usar a comunidade como uma variável de controle. Como se vê, a comunidade é significativa no nível de 1% (t-score de -4,52). A comunidade é uma variável nominal / categórica codificada como 1,2,3 para 1 de 3 comunidades diferentes.
Minha pergunta é se esse alto grau de significância significa que eu deveria estar fazendo regressões nas comunidades individualmente, e não como uma agregação. Caso contrário, o uso da comunidade como variável de controle está essencialmente fazendo isso?
Respostas:
A pergunta sugere uma comparação de três modelos relacionados. Para tornar a comparação clara, seja a variável dependente, seja o código da comunidade atual e defina e como indicadores das comunidades 1 e 2, respectivamente. (Isso significa que para a comunidade 1 e para as comunidades 2 e 3; para a comunidade 2 e para as comunidades 1 e 3.)X ∈ { 1 , 2 , 3 } X 1 X 2 X 1 = 1 X 1 = 0 X 2 = 1 X 2 = 0Y X∈{1,2,3} X1 X2 X1=1 X1=0 X2=1 X2=0
A análise atual pode ser uma das seguintes:
ou
Nos dois casos, representa um conjunto de variáveis aleatórias independentes distribuídas de forma idêntica e com expectativa zero. O segundo modelo provavelmente é o pretendido, mas o primeiro modelo será aquele que se encaixará na codificação descrita na pergunta.ε
A saída da regressão OLS é um conjunto de parâmetros ajustados (indicados com "chapéus" em seus símbolos), juntamente com uma estimativa da variação comum dos erros. No primeiro modelo, há um teste t para comparar com . No segundo modelo, existem dois testes t: um para comparar com e outro para comparar com . Como a pergunta relata apenas um teste t, vamos começar examinando o primeiro modelo. 0 ^ β 1 0 ^ β 2 0β^ 0 β1^ 0 β2^ 0
Concluindo que é significativamente diferente de , podemos fazer uma estimativa de = = para qualquer comunidade:β^ 0 Y E[α+βX+ε] α+βX
para a comunidade 1, e a estimativa é igual a ;X=1 α+β
para a comunidade 2, e a estimativa é igual a ; eX=2 α+2β
para a comunidade 3, e a estimativa é igual a .X=3 α+3β
Em particular, o primeiro modelo força os efeitos da comunidade em progressão aritmética. Se a codificação da comunidade é apenas uma maneira arbitrária de se diferenciar entre as comunidades, essa restrição interna é igualmente arbitrária e provavelmente errada.
É instrutivo realizar a mesma análise detalhada das previsões do segundo modelo:
Para a comunidade 1, em que e , o valor previsto de é igual a . Especificamente,X1=1 X2=0 Y α+β1
Para a comunidade 2, em que e , o valor previsto de é igual a . Especificamente,X1=0 X2=1 Y α+β2
Para a comunidade 3, em que , o valor previsto de é igual a . Especificamente,X1=X2=0 Y α
Os três parâmetros efetivamente dão ao segundo modelo total liberdade para estimar os três valores esperados de separadamente.Y Os testes t avaliam se (1) ; isto é, se existe uma diferença entre as comunidades 1 e 3; e (2) ; isto é, se existe uma diferença entre as comunidades 2 e 3. Além disso, pode-se testar o "contraste" com um teste t para verificar se as comunidades 2 e 1 diferem: isso funciona porque a diferença é = .β1=0 β2=0 β2−β1 (α+β2)−(α+β1) β2−β1
Agora podemos avaliar o efeito de três regressões separadas. Eles seriam
Comparando isso com o segundo modelo, vemos que deve concordar com , deve concordar com e deve concordar com . Portanto, em termos de flexibilidade dos parâmetros de ajuste, ambos os modelos são igualmente bons. No entanto, as suposições neste modelo sobre os termos de erro são mais fracas. Todo o deve ser independente e distribuído de forma idêntica (iid); todo deve ser iid, e todo deve ser iid, mas nada é assumido sobre as relações estatísticas entre as regressões separadas. α + β 1 α 2 α + β 2 α 3 α ε 1 ε 2 ε 3α1 α+β1 α2 α+β2 α3 α ε1 ε2 ε3 Regressões separadas, portanto, permitem flexibilidade adicional:
Mais importante ainda, a distribuição do podem diferir daquela do que pode ser diferente da do .ε 2 ε 3ε1 ε2 ε3
Em algumas situações, o pode estar correlacionado com o . Nenhum desses modelos lida explicitamente com isso, mas o terceiro modelo (regressões separadas) pelo menos não será afetado adversamente por ele.ε jεi εj
Essa flexibilidade adicional significa que os resultados do teste t para os parâmetros provavelmente diferem entre o segundo e o terceiro modelo. (Porém, não deve resultar em estimativas diferentes de parâmetros.)
Para verificar se são necessárias regressões separadas , faça o seguinte:
Encaixe o segundo modelo. Plote os resíduos contra a comunidade, por exemplo, como um conjunto de gráficos de caixas lado a lado ou um trio de histogramas ou até como três gráficos de probabilidade. Procure evidências de diferentes formas distributivas e, especialmente, de variações consideravelmente diferentes. Se essa evidência estiver ausente, o segundo modelo deve estar ok. Se estiver presente, são necessárias regressões separadas.
Quando os modelos são multivariados - ou seja, incluem outros fatores - é possível uma análise semelhante, com conclusões semelhantes (mas mais complicadas). Em geral, executar regressões separadas equivale a incluir todas as possíveis interações bidirecionais com a variável da comunidade (codificadas como no segundo modelo, não no primeiro) e permitir diferentes distribuições de erros para cada comunidade.
fonte
fonte