Como a adição de um 2º IV torna o 1º IV significativo?

64

Eu tenho o que provavelmente é uma pergunta simples, mas está me deixando desconcertada agora, então espero que você possa me ajudar.

Eu tenho um modelo de regressão de mínimos quadrados, com uma variável independente e uma variável dependente. O relacionamento não é significativo. Agora eu adiciono uma segunda variável independente. Agora, a relação entre a primeira variável independente e a variável dependente se torna significativa.

Como é que isso funciona? Provavelmente, isso está demonstrando algum problema com meu entendimento, mas para mim, mas não vejo como adicionar essa segunda variável independente pode tornar a primeira significativa.

EvKohl
fonte
4
Este é um tópico muito discutido neste site. Provavelmente isso se deve à colinearidade. Faça uma pesquisa por "colinearidade" e você encontrará dezenas de tópicos relevantes. Sugiro a leitura de algumas das respostas para stats.stackexchange.com/questions/14500/…
Macro
3
possível duplicação de preditores significativos torna-se não significativa na regressão logística múltipla . Há muitos tópicos isso é efetivamente uma duplicata - que era o mais próximo que eu poderia encontrar em menos de dois minutos
Macro
3
Esse é o problema oposto ao do thread @macro que acabamos de encontrar, mas os motivos são muito semelhantes.
Peter Flom - Restabelece Monica
3
@ Macro, acho que você está certo quanto a isso ser uma duplicata, mas acho que o problema aqui é um pouco diferente das 2 perguntas acima. O PO não se refere à significância do modelo como um todo, nem às variáveis ​​que se tornam não significativas com IVs adicionais. Suspeito que não se trata de multicolinearidade, mas de poder ou possivelmente supressão.
gung - Restabelece Monica
3
Também, @gung, supressão em um modelos lineares só ocorre quando existe co-linearidade - a diferença é de cerca de interpretação, por isso "não se trata de multicolinearidade, mas sobre a possibilidade de supressão" configura uma dicotomia enganosa
Macro

Respostas:

78

Embora a colinearidade (das variáveis ​​preditoras) seja uma explicação possível, eu gostaria de sugerir que não é uma explicação esclarecedora, porque sabemos que a colinearidade está relacionada a "informações comuns" entre os preditores, portanto, não há nada de misterioso ou contra-intuitivo no lado. efeito da introdução de um segundo preditor correlacionado no modelo.

Vamos considerar o caso de dois preditores que são verdadeiramente ortogonais : não há absolutamente nenhuma colinearidade entre eles. Uma mudança notável no significado ainda pode acontecer.

Designe as variáveis ​​preditoras e X 2 e deixe Y nomear a previsão. A regressão de Y contra X 1 não será significativa quando a variação em Y em torno de sua média não for reduzida consideravelmente quando X 1 for usado como variável independente. Quando essa variação está fortemente associada a uma segunda variável X 2 , no entanto, a situação muda. Lembre-se de que a regressão múltipla de Y em relação a X 1 e X 2 é equivalente aX1X2YYX1YX1 1X2YX1X2

  1. Regresse separadamente e X 1 contra X 2 .YX1X2

  2. Regresse os resíduos contra os resíduos X 1 .YX1

Os resíduos desde o primeiro passo removeu o efeito de . Quando X 2 está intimamente correlacionada com Y , esta pode expor uma quantidade relativamente pequena de variação, que anteriormente tinha sido mascarados. Se essa variação estiver associada a X 1 , obtemos um resultado significativo.X2X2YX1


Tudo isso talvez possa ser esclarecido com um exemplo concreto. Para começar, vamos usar Rpara gerar duas variáveis ​​independentes ortogonais junto com algum erro aleatório independente :ε

n <- 32
set.seed(182)
u <-matrix(rnorm(2*n), ncol=2)
u0 <- cbind(u[,1] - mean(u[,1]), u[,2] - mean(u[,2]))
x <- svd(u0)$u
eps <- rnorm(n)

(A svdetapa assegura que as duas colunas da matriz x(representando e X 2 ) sejam ortogonais, descartando a colinearidade como uma possível explicação de qualquer resultado subsequente.)X1X2

Em seguida, crie como uma combinação linear dos X e do erro. Eu ajustei os coeficientes para produzir o comportamento contra-intuitivo:YX

y <-  x %*% c(0.05, 1) + eps * 0.01

Isto é uma realização do modelo de com n = 32 casos.YiidN(0.05X1+1.00X2,0.012)n=32

Veja as duas regressões em questão. Primeiro , regresse contra apenas X 1 :YX1

> summary(lm(y ~ x[,1]))
...
             Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.002576   0.032423  -0.079    0.937
x[, 1]       0.068950   0.183410   0.376    0.710

O elevado valor de p de 0,710 mostra que é completamente não-significativa.X1

Em seguida , regresse contra X 1 e X 2 :YX1 1X2

> summary(lm(y ~ x))
...
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.002576   0.001678  -1.535    0.136    
x1           0.068950   0.009490   7.265 5.32e-08 ***
x2           1.003276   0.009490 105.718  < 2e-16 ***

De repente, na presença de , X 1 é fortemente significativo, como indicado pelos valores de p próximos a zero para ambas as variáveis.X2X1

Podemos visualizar esse comportamento por meio de uma matriz de dispersão das variáveis , X 2 e Y, juntamente com os resíduos usados ​​na caracterização em duas etapas da regressão múltipla acima. Como X 1 e X 2 são ortogonais, os resíduos X 1 serão os mesmos que X 1 e, portanto, não precisam ser redesenhados. Incluiremos os resíduos de Y contra X 2 na matriz do gráfico de dispersão, fornecendo esta figura:X1X2YX1X2X1X1YX2

lmy <- lm(y ~ x[,2])
d <- data.frame(X1=x[,1], X2=x[,2], Y=y, RY=residuals(lmy))
plot(d)

Aqui está uma renderização (com um pouco de prettificação):

SPM

Essa matriz de gráficos tem quatro linhas e quatro colunas, que vou contar de cima para baixo e da esquerda para a direita.

Aviso prévio:

  • O gráfico de dispersão na segunda linha e na primeira coluna confirma a ortogonalidade desses preditores: a linha dos mínimos quadrados é horizontal e a correlação é zero.(X1,X2)

  • O gráfico de dispersão na terceira linha e na primeira coluna exibe a relação leve, mas completamente insignificante, relatada pela primeira regressão de Y contra X 1 . (O coeficiente de correlação, ρ , é apenas 0,07 ).(X1,Y)YX1ρ0.07

  • O gráfico de dispersão na terceira linha e na segunda coluna mostra a forte relação entre Y e a segunda variável independente. (O coeficiente de correlação é 0,996 ).(X2,Y)Y0.996

  • A quarta linha examina as relações entre os resíduos de (regredidos em relação a X 2 ) e outras variáveis:YX2

    • A escala vertical mostra que os resíduos são (relativamente) bem pequenos: não conseguimos vê-los facilmente no gráfico de dispersão de contra X 2 .YX2

    • Os resíduos estão fortemente correlacionados com ( ρ = 0,80 ). A regressão contra X 2 desmascarou esse comportamento anteriormente oculto.X1ρ=0.80X2

    • Por construção, não há correlação remanescente entre os resíduos e .X2

    • Há pouca correlação entre e esses resíduos ( ρ = 0,09 ). Isso mostra como os resíduos podem se comportar de maneira totalmente diferente do que o próprio Y. É assim que X 1 pode repentinamente ser revelado como um contribuidor significativo para a regressão.Yρ=0.09YX1

Finalmente, vale ressaltar que as duas estimativas do coeficiente (ambas iguais a 0,06895 , não muito longe do valor pretendido de 0,05 ) concordam apenas porque X 1 e X 2 são ortogonais. Exceto em experimentos projetados, é raro a ortogonalidade se manter exatamente. Um desvio da ortogonalidade geralmente causa alterações nas estimativas do coeficiente.X10.068950.05X1X2

whuber
fonte
Então, eu entendo que explica a variabilidade que X 2 não. Isso requer que X 2 seja (mais) significativo que X 1 ? Ou pode X 1 ser significativo sem significado dos X 2 ? X1X2X2X1X1X2
Ronald
@Ronald, acredito que as respostas para suas perguntas são não e sim, respectivamente. Você pode descobrir modificando o exemplo nesta resposta: altere os coeficientes (0,05 e 0,01) no modelo e o número de casos ( ) para ver o que acontece. n=32
whuber
23

Eu acho que esse problema já foi discutido anteriormente neste site com bastante profundidade, se você soubesse onde procurar. Portanto, provavelmente adicionarei um comentário mais tarde com alguns links para outras perguntas ou poderá editá-lo para fornecer uma explicação mais completa se não encontrar nenhuma.

Existem duas possibilidades básicas: primeiro, o outro IV pode absorver parte da variabilidade residual e, assim, aumentar o poder do teste estatístico do IV inicial. A segunda possibilidade é que você tenha uma variável supressora. Este é um tópico muito contra-intuitivo, mas você pode encontrar algumas informações aqui *, aqui ou este excelente tópico do CV .

* Observe que você precisa ler todo o caminho até o final para chegar à parte que explica as variáveis ​​supressoras; você pode simplesmente pular para lá, mas será melhor atendido lendo a coisa toda.


Edit: como prometido, estou adicionando uma explicação mais completa do meu argumento sobre como o outro IV pode absorver parte da variabilidade residual e, assim, aumentando o poder do teste estatístico do IV inicial. O @whuber adicionou um exemplo impressionante, mas achei que poderia adicionar um exemplo complementar que explica esse fenômeno de uma maneira diferente, o que pode ajudar algumas pessoas a entender o fenômeno com mais clareza. Além disso, demonstro que o segundo IV não precisa estar mais fortemente associado (embora, na prática, quase sempre ocorra esse fenômeno).

As covariáveis ​​em um modelo de regressão podem ser testadas com testes dividindo a estimativa de parâmetro por seu erro padrão, ou podem ser testadas com testes F particionando as somas de quadrados. Quando o SS do tipo III é usado, esses dois métodos de teste serão equivalentes (para saber mais sobre os tipos de SS e os testes associados, pode ser útil ler minha resposta aqui: Como interpretar o SS do tipo I ). Para aqueles que estão começando a aprender sobre métodos de regressão, os testes t costumam ser o foco, porque parecem mais fáceis para as pessoas entenderem. No entanto, esse é um caso em que acho que olhar para a tabela ANOVA é mais útil. Vamos relembrar a tabela ANOVA básica para um modelo de regressão simples: tFt

SourceSSdfMSFx1(y^iy¯)21SSx1dfx1MSx1MSresResidual(yiy^i)2N(1+1)SSresdfresTotal(yiy¯)2N1

Aqui é a média de y , y i é o valor observado de y para a unidade (por exemplo, paciente) i , y i é o valor previsto de modelo para a unidade de i , e N é o número total de unidades no estudo. Se você tiver um modelo de regressão múltipla com duas covariáveis ​​ortogonais, a tabela ANOVA poderá ser construída da seguinte maneira: y¯yyiyiy^iiN

SourceSSdfMSFx1(y^x1ix¯2y¯)21SSx1dfx1MSx1MSresx2(y^x¯1x2iy¯)21SSx2dfx2MSx2MSresResidual(yiy^i)2N(2+1)SSresdfresTotal(yiy¯)2N1

Aqui y x 1 i ° x 2 , por exemplo, é o valor previsto para a unidade i se o seu valor observado para x 1 foi o seu valor real observado, mas o seu valor observado para x 2 foi a média de x 2 . Obviamente, é possível que ˉ x 2 seja o valor observado de x 2y^x1ix¯2ix1x2x2x¯2 x2para algumas observações, caso em que não há ajustes a serem feitos, mas esse normalmente não será o caso. Observe que este método para criar a tabela ANOVA é válido apenas se todas as variáveis ​​forem ortogonais; este é um caso altamente simplificado criado para fins expositivos.

Se estamos a considerar a situação em que os mesmos dados são utilizados para ajustar um modelo ambos com e sem , então os observados y valores e ˉ y será o mesmo. Assim, o SS total deve ser o mesmo nas duas tabelas ANOVA. Além disso, se x 1 e x 2 são ortogonais entre si, então S S x 1 será idêntico nas duas tabelas ANOVA também. Então, como é possível haver somas de quadrados associados a x 2 na tabela? De onde eles vieram se o total de SS e S S x 1x2yy¯x1x2SSx1x2SSx1são os mesmos? A resposta é que eles vieram de . O df x 2 também é retirado de df res . SSresdfx2dfres

Agora, o teste de x 1 é o M S x 1 dividido por M S res em ambos os casos. Como M S x 1 é o mesmo, a diferença na significância desse teste vem da mudança em M S res , que mudou de duas maneiras: Começou com menos SS, porque alguns foram atribuídos a x 2 , mas esses são dividido por menos df, já que alguns graus de liberdade foram atribuídos a x 2 também. A mudança na significância / poder do teste F (e equivalentemente noFx1MSx1MSresMSx1MSresx2x2F teste t , neste caso), deve-se à forma como essas duas alterações são trocadas. Se mais SS for dado a x 2 , em relação ao df que é dado a x 2 , então M S res diminuirá, fazendo com que o F associado a x 1 aumente e p se torne mais significativo. tx2x2MSresFx1p

O efeito de não precisa ser maior que x 1 para que isso ocorra, mas se não for, as mudanças nos valores de p serão bem pequenas. A única maneira de acabar alternando entre não-significância e significância é se os valores- p estiverem ligeiramente nos dois lados do alfa. Aqui está um exemplo, codificado em : x2x1ppR

x1 = rep(1:3, times=15)
x2 = rep(1:3, each=15)
cor(x1, x2)     # [1] 0
set.seed(11628)
y       = 0 + 0.3*x1 + 0.3*x2 + rnorm(45, mean=0, sd=1)
model1  = lm(y~x1)
model12 = lm(y~x1+x2)

anova(model1)
#  ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  5.314  5.3136  3.9568 0.05307 .
# Residuals 43 57.745  1.3429                  
#  ...
anova(model12)
#  ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  5.314  5.3136  4.2471 0.04555 *
# x2         1  5.198  5.1979  4.1546 0.04785 *
# Residuals 42 52.547  1.2511                  
#  ...

De fato, não precisa ser significativo. Considerar: x2

set.seed(1201)
y       = 0 + 0.3*x1 + 0.3*x2 + rnorm(45, mean=0, sd=1)
anova(model1)
# ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  3.631  3.6310  3.8461 0.05636 .
# ...
anova(model12)
# ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  3.631  3.6310  4.0740 0.04996 *
# x2         1  3.162  3.1620  3.5478 0.06656 .
# ...

Eles não são nada parecidos com o exemplo dramático do post do @ whuber, mas podem ajudar as pessoas a entender o que está acontecendo aqui.

- Reinstate Monica
fonte
11
(+1) para "Primeiro, o outro IV pode absorver parte da variabilidade residual e, assim, aumentar o poder do teste estatístico do IV inicial", que @whuber deu um bom exemplo de
Macro
(+1) No começo, você fornece três links. Infelizmente, o primeiro (externo) está quebrado (erro 404). Além disso: você diz que existem "duas possibilidades básicas": o segundo IV adicionado aumenta o poder de testar o primeiro IV (e essa é exatamente a situação descrita por Whuber e Wayne em suas respostas) ou existe uma variável supressora (qual, entre? o primeiro ou o segundo?). Minha pergunta: essas são realmente duas situações distintas? Ou é essencialmente a mesma coisa, talvez vista um pouco diferente? Seria ótimo se você pudesse expandir isso.
ameba diz Restabelecer Monica
@ Gung, obrigado pela resposta. Ttnphns começa com um link para um artigo que discute supressão e alguns outros efeitos relacionados, e este artigo afirma que "a definição mais geralmente aceita de uma variável supressora (Tzelgov & Henik, 1991) [é]" uma variável que aumenta a validade preditiva de outra variável (ou conjunto de variáveis) por sua inclusão em uma equação de regressão "". Isso soa exatamente como o que o OP perguntou aqui, por isso fiquei confuso com você dizendo que pode haver duas razões diferentes .
ameba diz Restabelecer Monica
11
@amoeba, o ponto é que você tem 2 mecanismos diferentes. Ou seja, você tem 2 DAGs subjacentes diferentes. A manifestação externa pode ser semelhante e o poder adicional pode ser mais ou menos, mas a razão pela qual a 2ª variável ajuda difere b / c a relação da 2ª variável com x1 e y difere. Se não estiver claro, talvez seja necessário fazer uma nova pergunta; é difícil fazer muito em comentários.
gung - Restabelece Monica
17

Parece que a pergunta do OP pode ser interpretada de duas maneiras diferentes:

  1. Matematicamente, como o OLS funciona, de modo que a adição de uma variável independente possa alterar os resultados de maneira inesperada?

  2. Como modificar meu modelo adicionando uma variável altera o efeito de outra variável independente no modelo?

Já existem várias boas respostas para a pergunta nº 1. E a pergunta 2 pode ser tão óbvia para os especialistas que eles assumem que o OP deve estar fazendo a pergunta 1. Mas acho que a pergunta 2 merece uma resposta, que seria algo como:

Vamos começar com um exemplo. Digamos que você tenha a altura, idade, sexo, etc., de um número de filhos e que queira fazer uma regressão para prever a altura deles.

Você começa com um modelo ingênuo que usa o gênero como a variável independente. E não é estatisticamente significativo. (Como pode ser, você está misturando crianças de 3 anos e adolescentes).

Então você adiciona idade e, de repente, não apenas é significativa quanto à idade, mas também o sexo. Como poderia ser?

Obviamente, no meu exemplo, você pode ver claramente que a idade é um fator importante na altura de uma criança / adolescente. Provavelmente o fator mais importante sobre o qual você tem dados. O gênero também pode ser importante, especialmente para crianças mais velhas e adultos, mas o gênero por si só é um modelo ruim da altura da criança.

Idade mais sexo é um modelo razoável (embora, é claro, simplificado), adequado para a tarefa. Se você adicionar outros dados (interação de idade e sexo, dieta, altura dos pais etc.), poderá criar um modelo ainda melhor, que, é claro, ainda seria simplificado em comparação com a série de fatores que realmente determinam a altura de uma criança, mas, novamente, todos os modelos são versões simplificadas da realidade. (Um mapa do mundo na escala 1: 1 não é muito útil para um viajante.)

Seu modelo original (somente sexo) é muito simplificado - tão simplificado que é essencialmente quebrado. Mas isso não significa que o gênero não seja útil em um modelo melhor.

EDIT: adicionada sugestão de gung sobre o termo de interação idade e sexo.

Wayne
fonte
11
Presumivelmente, +1, nb, idade e sexo também precisarão de um termo de interação.
gung - Restabelece Monica
11
+1 Esse é um ótimo exemplo, porque é muito simples e intuitivamente claro e, ao mesmo tempo, se encaixa exatamente na situação descrita com muito mais detalhes, mas apenas abstratamente por @whuber em sua resposta aceita aqui.
Ameba diz Reinstate Monica
10

Este tópico já tem três respostas excelentes (+1 para cada). Minha resposta é um comentário estendido e uma ilustração ao ponto feito por @gung (o que levou algum tempo para entender):

Existem duas possibilidades básicas: primeiro, o outro IV pode absorver parte da variabilidade residual e, assim, aumentar o poder do teste estatístico do IV inicial. A segunda possibilidade é que você tenha uma variável supressora.

x1x2ynRnyx1x2(com a "matriz do chapéu" simplesmente sendo um projetor). Os leitores não familiarizados com essa abordagem podem procurar, por exemplo, em The Elements of Statistical Learning , Seção 3.2, ou em muitos outros livros.

"Aprimoramento"

A figura a seguir mostra as duas possibilidades listadas por @gung. Considere apenas a parte azul no início (ou seja, ignore todas as linhas vermelhas):

Aprimoramento e supressão

x1x2Xyy^

x2yx1α90yx1x1

x2x1x2x1x2x2yβα90x1

Outra maneira de dizer é que agora o teste está comparando o comprimento de OF com OG, e não com OC como antes; O OF é pequeno e "insignificante" comparado ao CO, mas grande o suficiente para ser "significativo" comparado ao OG.

Essa é exatamente a situação apresentada por @whuber, @gung e @Wayne em suas respostas. Não sei se esse efeito tem um nome padrão na literatura de regressão, então chamarei de "aprimoramento".

Supressão

α=90β=90x1

Não é assim na supressão.

x3x1x2x3Xx1x3x1Xy

x1x1y

ameba diz Restabelecer Monica
fonte
11
Achei sua resposta a mais fácil de entender com a ajuda da interpretação geométrica. Soberbo!
zsljulius
11
α=0 0yx1 1yx1 1cor(x1 1,y)=1 1x1 1yyx1 1
Qoheleth
α=90