A adição de mais variáveis ​​em uma regressão multivariável altera os coeficientes das variáveis ​​existentes?

16

Digamos que eu tenha uma regressão multivariável (várias variáveis ​​independentes) que consiste em 3 variáveis. Cada uma dessas variáveis ​​possui um dado coeficiente. Se eu decidir introduzir uma quarta variável e executar novamente a regressão, os coeficientes das três variáveis ​​originais serão alterados?

Mais amplamente: em uma regressão multivariável (múltiplas variáveis ​​independentes), o coeficiente de uma dada variável é influenciado pelo coeficiente de outra variável?

Lukas Pleva
fonte
11
Edite a pergunta para ser mais preciso. Você multivariablequer dizer múltiplas variáveis ​​independentes ("regressão múltipla") ou múltiplas variáveis ​​dependentes ("regressão multivariada" ou "MAN (C) OVA")?
ttnphns
11
Se a resposta fosse negativa, não haveria necessidade de fazer regressão multivariável! (poderíamos simplesmente fazer muitas queridos univariáveis)
user603
11
Esse é um ponto perspicaz, @ user603, mas acho que ainda pode haver um lugar para a regressão múltipla, pois se as outras variáveis ​​estiverem significativamente relacionadas à resposta (embora não a variável explicativa), elas poderão reduzir a variação residual, levando a melhorias. poder e precisão.
gung - Restabelece Monica

Respostas:

23

Uma estimativa do parâmetro em um modelo de regressão (por ) irá mudar se uma variável, X J , é adicionado ao modelo, que é: β^iXj

  1. correlacionado com a variável correspondente desse parâmetro, (que já estava no modelo) eXi
  2. correlacionado com a variável resposta, Y

Um beta estimado não será alterado quando uma nova variável for adicionada, se uma das alternativas acima não estiver correlacionada. Note-se que se eles não estão correlacionados na população (isto é, , ou ρ ( X J , Y ) = 0 ) é irrelevante. O que importa é que ambas as correlações de amostra são exatamente 0 . Essencialmente, isso nunca será o caso na prática, a menos que você esteja trabalhando com dados experimentais em que as variáveis ​​foram manipuladas para que não sejam correlacionadas pelo design. ρ(Xi,Xj)=0 ρ(Xj,Y)=00

Observe também que a quantidade alterada pelos parâmetros pode não ser muito significativa (isso depende, pelo menos em parte, da sua teoria). Além disso, a quantidade que eles podem mudar é uma função das magnitudes das duas correlações acima.

Em uma nota diferente, não é realmente correto pensar nesse fenômeno como "o coeficiente de uma determinada variável [sendo] influenciado pelo coeficiente de outra variável". Não são os betas que estão se influenciando. Esse fenômeno é um resultado natural do algoritmo que o software estatístico usa para estimar os parâmetros de inclinação. Imagine uma situação em que seja causado por X i e X j , que por sua vez estão correlacionados. Se apenas X i estiver no modelo, parte da variação em Y que é devida a X j será atribuída inadequadamente a X iYXiXjXiYXjXi. Isto significa que o valor de é enviesada; isso é chamado de viés de variável omitida . Xi

- Reinstate Monica
fonte
Muito bom ponto de partida nessa última frase.
Glen_b -Reinstala Monica 13/03
Discuto o outro lado da questão na minha resposta aqui: Estimando vez de b 1 x 1 + b 2 x 2 + b 3 x 3b1x1+b2x2b1x1+b2x2+b3x3 .
gung - Restabelece Monica
@gung eu sei que a sua resposta é antiga, mas eu só tentei este ideone.com/6CAkSR onde eu criei e x 2 são correlacionados e x 1 não está correlacionada com y . Mas quando adicionei x 1 ao modelo, o parâmetro x2 mudou, embora x 1 não esteja correlacionado com y . você disse em sua resposta "correlacionado com a variável de resposta, Y Um beta estimado não será alterado quando uma nova variável for adicionada, se qualquer uma das opções acima não estiver correlacionada". Estou errado? yx2x1yx1x1yY
Floyd
11
Ele precisa estar perfeitamente não correlacionado, não apenas não significativamente correlacionado, @floyd. Nesse caso, o beta para não deveria ter sido alterado, a menos que houvesse algum erro. s1
gung - Restabelece Monica
@gung muito obrigado por responder. Você conhece uma maneira de criar dados tão perfeitos? eu sei que não pode acontecer na vida real
floyd
3

É matematicamente possível que os coeficientes não sejam alterados, mas é improvável que não ocorra nenhuma alteração com dados reais, mesmo que todas as variáveis ​​independentes sejam independentes uma da outra. Mas, quando este for o caso, as alterações (exceto a interceptação) tenderão a 0:

set.seed(129231)
x1 <- rnorm(100)
x2 <- rnorm(100)
x3 <- rnorm(100)
x4 <- rnorm(100)
y <- x1 + x2 + x3 + x4 + rnorm(100, 0, .2)
lm1 <- lm(y~x1+x2+x3)
coef(lm1)
lm2 <- lm(y~x1+x2+x3+x4)
coef(lm2)

No mundo real, porém, variáveis ​​independentes são frequentemente relacionadas entre si. Nesse caso, adicionar uma quarta variável à equação alterará os outros coeficientes, às vezes em muito.

Depois, há possíveis interações .... mas isso é outra questão.

Peter Flom - Restabelece Monica
fonte
1

De um modo geral, sim, adicionar uma variável altera os coeficientes anteriores, quase sempre.

De fato, esta é essencialmente a causa do paradoxo de Simpson , onde os coeficientes podem mudar, até mesmo reverter o sinal, por causa de covariáveis ​​omitidas.

Para que isso não aconteça, precisamos que as novas variáveis ​​sejam ortogonais às anteriores. Isso geralmente acontece em experimentos projetados, mas é muito improvável que ocorra em dados em que o padrão das variáveis ​​independentes não é planejado.

Glen_b -Reinstate Monica
fonte