Digamos que eu tenha uma regressão multivariável (várias variáveis independentes) que consiste em 3 variáveis. Cada uma dessas variáveis possui um dado coeficiente. Se eu decidir introduzir uma quarta variável e executar novamente a regressão, os coeficientes das três variáveis originais serão alterados?
Mais amplamente: em uma regressão multivariável (múltiplas variáveis independentes), o coeficiente de uma dada variável é influenciado pelo coeficiente de outra variável?
regression
multiple-regression
multivariable
Lukas Pleva
fonte
fonte
multivariable
quer dizer múltiplas variáveis independentes ("regressão múltipla") ou múltiplas variáveis dependentes ("regressão multivariada" ou "MAN (C) OVA")?Respostas:
Uma estimativa do parâmetro em um modelo de regressão (por ) irá mudar se uma variável, X J , é adicionado ao modelo, que é:β^i Xj
Um beta estimado não será alterado quando uma nova variável for adicionada, se uma das alternativas acima não estiver correlacionada. Note-se que se eles não estão correlacionados na população (isto é, , ou ρ ( X J , Y ) = 0 ) é irrelevante. O que importa é que ambas as correlações de amostra são exatamente 0 . Essencialmente, isso nunca será o caso na prática, a menos que você esteja trabalhando com dados experimentais em que as variáveis foram manipuladas para que não sejam correlacionadas pelo design.ρ(Xi,Xj)=0 ρ(Xj,Y)=0 0
Observe também que a quantidade alterada pelos parâmetros pode não ser muito significativa (isso depende, pelo menos em parte, da sua teoria). Além disso, a quantidade que eles podem mudar é uma função das magnitudes das duas correlações acima.
Em uma nota diferente, não é realmente correto pensar nesse fenômeno como "o coeficiente de uma determinada variável [sendo] influenciado pelo coeficiente de outra variável". Não são os betas que estão se influenciando. Esse fenômeno é um resultado natural do algoritmo que o software estatístico usa para estimar os parâmetros de inclinação. Imagine uma situação em que seja causado por X i e X j , que por sua vez estão correlacionados. Se apenas X i estiver no modelo, parte da variação em Y que é devida a X j será atribuída inadequadamente a X iY Xi Xj Xi Y Xj Xi . Isto significa que o valor de é enviesada; isso é chamado de viés de variável omitida . Xi
fonte
É matematicamente possível que os coeficientes não sejam alterados, mas é improvável que não ocorra nenhuma alteração com dados reais, mesmo que todas as variáveis independentes sejam independentes uma da outra. Mas, quando este for o caso, as alterações (exceto a interceptação) tenderão a 0:
No mundo real, porém, variáveis independentes são frequentemente relacionadas entre si. Nesse caso, adicionar uma quarta variável à equação alterará os outros coeficientes, às vezes em muito.
Depois, há possíveis interações .... mas isso é outra questão.
fonte
De um modo geral, sim, adicionar uma variável altera os coeficientes anteriores, quase sempre.
De fato, esta é essencialmente a causa do paradoxo de Simpson , onde os coeficientes podem mudar, até mesmo reverter o sinal, por causa de covariáveis omitidas.
Para que isso não aconteça, precisamos que as novas variáveis sejam ortogonais às anteriores. Isso geralmente acontece em experimentos projetados, mas é muito improvável que ocorra em dados em que o padrão das variáveis independentes não é planejado.
fonte