Configuração básica:
modelo de regressão: que C é o vetor de variáveis de controle.
Estou interessado em e espero que e sejam negativos. No entanto, existe um problema de multicolinearidade no modelo, o coeficiente de correlação é dado por, corr ( , 0,9345, corr ( , 0,1765, corr ( , 0,3019.β 1 β 2 x 1 x 2 ) = x 1 x 3 ) = x 2 x 3 ) =
Portanto, e são altamente correlacionados e devem praticamente fornecer as mesmas informações. Eu corro três regressões: x 2
- excluir variável ; 2. excluir variável ; 3. modelo original com e .x 2 x 1 x 2
Resultados:
Para a regressão 1 e 2, fornece o sinal esperado para e respectivamente e com magnitude semelhante. E e são significativos no nível de 10% em ambos os modelos depois que eu faço a correção HAC no erro padrão. é positivo, mas não significativo nos dois modelos.β 1 β 2 β 1 β 3
Mas para 3, tem o sinal esperado, mas o sinal para é positivo com a magnitude duas vezes maior que em valor absoluto. E e são insignificantes. Além disso, a magnitude para reduz quase pela metade em comparação com a regressão 1 e 2.β 2 β 1 β 1 β 2 β 3
Minha pergunta é:
Por que em 3, o sinal de se torna positivo e muito maior que em valor absoluto? Existe alguma razão estatística para que possa virar sinal e ter grande magnitude? Ou é porque os modelos 1 e 2 sofrem problema variável omitido que inflacionou desde que tenha efeito positivo em y? Porém, no modelo de regressão 1 e 2, e devem ser positivos em vez de negativos, pois o efeito total de e no modelo de regressão 3 é positivo.β 1 β 2 β 3 x 2 β 2 β 1 x 1 x 2
A resposta simples é que não há uma razão profunda.
A maneira de pensar sobre isso é que, quando a multicolinearidade se aproxima da perfeição, os valores específicos que você acaba obtendo do acessório tornam-se cada vez mais dependentes de detalhes cada vez menores dos dados. Se você coletar a mesma quantidade de dados da mesma distribuição subjacente e ajustar, poderá obter valores ajustados completamente diferentes.
fonte