O ajuste para variáveis ​​supérfluas influencia as estimativas do OLS?

8

O tratamento usual dos livros didáticos para o ajuste de variáveis ​​supérfluas no OLS afirma que o estimador ainda é imparcial, mas pode ter uma variação maior (ver, por exemplo, Greene, Econometric Analysis, 7ª ed., P. 58).

Outro dia, deparei-me com o tratamento de Judea Pearl do Paradox de Simpson e uma boa página da web que simula como "a inclusão gradual de variáveis ​​de controle em um modelo de regressão muda o sinal de uma associação causal estimada em cada etapa". Para mim, isso de alguma forma contradiz a afirmação acima. Sinto que esse pode ser um problema muito sutil (embora incrivelmente importante), portanto, qualquer ponteiro para literatura adicional seria muito útil. O que mais me impressiona é que Greene afirma que tem uma prova para sua avaliação.

Julian Schuessler
fonte

Respostas:

10

Não há contradição.

O primeiro parágrafo fala sobre variáveis ​​supérfluas.

Se o paradoxo de Simpson se aplica, as variáveis ​​não são supérfluas.

Glen_b -Reinstate Monica
fonte
1
No problema apresentado no site, se alguém se ajusta a Z1 e Z2, a estimativa é tendenciosa. O Z1 parece realmente não ser supérfluo, mas e o Z2? Por construção, ele não afeta X ou Y, mas sua inclusão influencia a estimativa.
Julian Schuessler
2
Dependendo das relações exatas entre essas variáveis, uma variável supérflua com correlação extremamente alta com uma das outras variáveis ​​independentes pode levar a reversões de sinais. Isso também é abordado no livro Greene na parte sobre multicolinearidade. Ele afirma que altos níveis de multicolinearidade podem levar a coeficientes instáveis ​​e não confiáveis ​​devido à quase singularidade.
217 Andy
Eu deveria ter mencionado que o comentário anterior foi mais para @JulianSchuessler. Para resposta de Glen_b +1
Andy
3
Z2 não causa X ou Y, mas é conectado a X através da variável não observada U e a Y via Z3. Portanto, ele está correlacionado com X e Y. Se você definir "supérfluo" como "independente", Greene está correto - o condicionamento em uma variável Z independente de X e Y não influenciará sua estimativa (excluindo os casos em que a independência é "infiel" relações causais). Eu acho que a multicolinearidade é uma questão separada. O viés do condicionamento em variáveis ​​"colisor" não requer uma dependência muito alta entre as variáveis ​​e não explode a variação de sua estimativa. d
Lizzie Silver
@LizzieSilver: Obrigado, este também é meu entendimento atual, tendo analisado mais profundamente o trabalho de Pearl: Se alguém bloqueia todos os caminhos de backdoor incluindo os regressores apropriados, obtém-se uma estimativa imparcial. No entanto, também é absolutamente claro no trabalho de Pearl que o ajuste para as variáveis ​​erradas, que podem ser correlacionadas com X e Y, influencia a estimativa do efeito causal da variável de interesse. Então, eu me pergunto o que fazer com a prova usual de imparcialidade. Talvez a regressão errada seja imparcial, mas o coeficiente nela não é igual aos efeitos causais, mas a algo mais?
Julian Schuessler
5

Considere um modelo de regressão linear postulado

yEu=b0 0+b1X1Eu+b2X2Eu+vocêEu,Eu=1,...,n

Por uma questão de álgebra (e não suposições estocásticas), o estimador OLS na notação matricial é

b^=b+(XX)-1Xvocê

Seu valor esperado, condicionado à matriz regressora, é portanto

E(b^X)=b+(XX)-1XE(vocêX)

E(vocêX)=0 0

E(b^X)=b+0 0E(b^)=b

usando também a lei das expectativas iteradas.

X2

X2yX1X2

Alecos Papadopoulos
fonte