Existe uma diferença entre 'controlar para' e 'ignorar' outras variáveis ​​na regressão múltipla?

50

O coeficiente de uma variável explicativa em uma regressão múltipla nos diz a relação dessa variável explicativa com a variável dependente. Tudo isso, enquanto 'controlando' as outras variáveis ​​explicativas.

Como eu o vi até agora:

Enquanto cada coeficiente está sendo calculado, as outras variáveis ​​não são levadas em consideração, então considero que elas são ignoradas.

Então, estou certo quando penso que os termos 'controlado' e 'ignorado' podem ser usados ​​de forma intercambiável?

Siddharth Gopi
fonte
2
Eu não estava tão entusiasmado com essa pergunta até ver os dois que você inspirou @gung a oferecer.
Dwin
11
Você não estava ciente da conversa que estávamos tendo em outro lugar que motivou essa pergunta, @DWin. Era demais tentar explicar isso em um comentário, então pedi ao OP que fizesse uma pergunta formal. Na verdade, acho que trazer explicitamente a distinção que b / t ignora e controla para outras variáveis ​​em regressão é uma ótima pergunta, e fico feliz que tenha sido discutida aqui.
gung - Restabelece Monica
2
veja também o primeiro diagrama aqui
Glen_b
11
Os dados usados ​​nesta pergunta estão disponíveis para que possamos executá-los como uma amostra educacional?
Larry

Respostas:

88

YX1X2YX1

  1. X1YX2
    Y=β0+β1X1+β2X2
  2. X1Y X2

    Y=β0+β1X1

X1Yβ^1X1X2

insira a descrição da imagem aqui

X1X2X2X2 X2X2X2=1X2=2X2=3X1YX2 X2

insira a descrição da imagem aqui

Outra maneira de pensar sobre a distinção entre ignorar e controlar outra variável é considerar a distinção entre uma distribuição marginal e uma distribuição condicional . Considere esta figura:

insira a descrição da imagem aqui

( Isso é retirado da minha resposta aqui: qual é a intuição por trás das distribuições gaussianas condicionais? )

YYXYX1=25X1=45X1

- Reinstate Monica
fonte
2
Gung, isso é esclarecedor, fico feliz por ter cometido o erro de usar a palavra 'ignorar' na minha resposta a essa pergunta. Agora vou tentar descobrir exatamente como os pacotes estatísticos 'controlam' as outras variáveis. (Meu primeiro pensamento é que eles usam alguma medida como o coeficiente de correlação de Pearson. Com muitas variáveis ​​explicativas, as coisas ficariam confusas). Obrigado por esta resposta!
Siddharth Gopi
11
De nada, @garciaj, embora ainda não terminei ;-). Estou procurando outra figura; Eu posso ter que fazer isso do zero.
gung - Restabelece Monica
4
A idéia crucial na primeira figura é que esses pontos estejam em um espaço tridimensional, com os círculos vermelhos em um plano na tela do computador, os triângulos azuis em um plano paralelo um pouco na frente da tela e o verde vantagens em um avião um pouco na frente disso. O plano de regressão se inclina para baixo para a direita, mas se inclina para cima à medida que sai da tela em sua direção. Observe que esse fenômeno ocorre porque X1 e X2 estão correlacionados; se não forem correlacionados, os betas estimados seriam os mesmos.
gung - Restabelece Monica
11
E esse tipo de correlação entre preditores (por exemplo, cenário @gung) é o que geralmente subjaz a um caso do paradoxo de Simpson . Em um universo com mais de três variáveis, é aconselhável lembrar que pode estar ocultando suas inferências (d'oh!).
FairMiles
2
@MSIS, quando você controla uma variável em um modelo, o modelo tenta mantê-la constante (fixa) para estimar tudo o mais no modelo. No entanto, esta é apenas uma tentativa e sujeita a erro aleatório, portanto não é necessariamente idêntico ao que você obteria se executasse um estudo com uma variável fisicamente fixa em um determinado valor.
gung - Restabelece Monica
8

Eles não são ignorados. Se eles fossem 'ignorados', não estariam no modelo. A estimativa da variável explicativa de interesse está condicionada às demais variáveis. A estimativa é formada "no contexto de" ou "permitindo o impacto" das outras variáveis ​​no modelo.

DWin
fonte
A estimativa está obviamente sujeita a outras variáveis. Mas devemos purificá-lo introduzindo os chamados outros fatores no modelo. No entanto, algumas vezes esses fatores podem ser de natureza categórica e causar mais problemas do que uma solução válida.
Subhash C. Davar