Eu tenho o que provavelmente é uma pergunta simples, mas está me deixando desconcertada agora, então espero que você possa me ajudar.
Eu tenho um modelo de regressão de mínimos quadrados, com uma variável independente e uma variável dependente. O relacionamento não é significativo. Agora eu adiciono uma segunda variável independente. Agora, a relação entre a primeira variável independente e a variável dependente se torna significativa.
Como é que isso funciona? Provavelmente, isso está demonstrando algum problema com meu entendimento, mas para mim, mas não vejo como adicionar essa segunda variável independente pode tornar a primeira significativa.
Respostas:
Embora a colinearidade (das variáveis preditoras) seja uma explicação possível, eu gostaria de sugerir que não é uma explicação esclarecedora, porque sabemos que a colinearidade está relacionada a "informações comuns" entre os preditores, portanto, não há nada de misterioso ou contra-intuitivo no lado. efeito da introdução de um segundo preditor correlacionado no modelo.
Vamos considerar o caso de dois preditores que são verdadeiramente ortogonais : não há absolutamente nenhuma colinearidade entre eles. Uma mudança notável no significado ainda pode acontecer.
Designe as variáveis preditoras e X 2 e deixe Y nomear a previsão. A regressão de Y contra X 1 não será significativa quando a variação em Y em torno de sua média não for reduzida consideravelmente quando X 1 for usado como variável independente. Quando essa variação está fortemente associada a uma segunda variável X 2 , no entanto, a situação muda. Lembre-se de que a regressão múltipla de Y em relação a X 1 e X 2 é equivalente aX1 X2 Y Y X1 Y X1 X2 Y X1 X2
Regresse separadamente e X 1 contra X 2 .Y X1 X2
Regresse os resíduos contra os resíduos X 1 .Y X1
Os resíduos desde o primeiro passo removeu o efeito de . Quando X 2 está intimamente correlacionada com Y , esta pode expor uma quantidade relativamente pequena de variação, que anteriormente tinha sido mascarados. Se essa variação estiver associada a X 1 , obtemos um resultado significativo.X2 X2 Y X1 1
Tudo isso talvez possa ser esclarecido com um exemplo concreto. Para começar, vamos usarε
R
para gerar duas variáveis independentes ortogonais junto com algum erro aleatório independente :(AX1 1 X2
svd
etapa assegura que as duas colunas da matrizx
(representando e X 2 ) sejam ortogonais, descartando a colinearidade como uma possível explicação de qualquer resultado subsequente.)Em seguida, crie como uma combinação linear dos X e do erro. Eu ajustei os coeficientes para produzir o comportamento contra-intuitivo:Y X
Isto é uma realização do modelo de com n = 32 casos.Y∼eu eu dN( 0,05 X1 1+ 1,00 X2, 0,012) n = 32
Veja as duas regressões em questão. Primeiro , regresse contra apenas X 1 :Y X1 1
O elevado valor de p de 0,710 mostra que é completamente não-significativa.X1 1
Em seguida , regresse contra X 1 e X 2 :Y X1 1 X2
De repente, na presença de , X 1 é fortemente significativo, como indicado pelos valores de p próximos a zero para ambas as variáveis.X2 X1 1
Podemos visualizar esse comportamento por meio de uma matriz de dispersão das variáveis , X 2 e Y, juntamente com os resíduos usados na caracterização em duas etapas da regressão múltipla acima. Como X 1 e X 2 são ortogonais, os resíduos X 1 serão os mesmos que X 1 e, portanto, não precisam ser redesenhados. Incluiremos os resíduos de Y contra X 2 na matriz do gráfico de dispersão, fornecendo esta figura:X1 1 X2 Y X1 1 X2 X1 1 X1 Y X2
Aqui está uma renderização (com um pouco de prettificação):
Essa matriz de gráficos tem quatro linhas e quatro colunas, que vou contar de cima para baixo e da esquerda para a direita.
Aviso prévio:
O gráfico de dispersão na segunda linha e na primeira coluna confirma a ortogonalidade desses preditores: a linha dos mínimos quadrados é horizontal e a correlação é zero.(X1,X2)
O gráfico de dispersão na terceira linha e na primeira coluna exibe a relação leve, mas completamente insignificante, relatada pela primeira regressão de Y contra X 1 . (O coeficiente de correlação, ρ , é apenas 0,07 ).(X1,Y) Y X1 ρ 0.07
O gráfico de dispersão na terceira linha e na segunda coluna mostra a forte relação entre Y e a segunda variável independente. (O coeficiente de correlação é 0,996 ).( X2, Y) Y 0,996
A quarta linha examina as relações entre os resíduos de (regredidos em relação a X 2 ) e outras variáveis:Y X2
A escala vertical mostra que os resíduos são (relativamente) bem pequenos: não conseguimos vê-los facilmente no gráfico de dispersão de contra X 2 .Y X2
Os resíduos estão fortemente correlacionados com ( ρ = 0,80 ). A regressão contra X 2 desmascarou esse comportamento anteriormente oculto.X1 1 ρ=0.80 X2
Por construção, não há correlação remanescente entre os resíduos e .X2
Há pouca correlação entre e esses resíduos ( ρ = 0,09 ). Isso mostra como os resíduos podem se comportar de maneira totalmente diferente do que o próprio Y. É assim que X 1 pode repentinamente ser revelado como um contribuidor significativo para a regressão.Y ρ=0.09 Y X1
Finalmente, vale ressaltar que as duas estimativas do coeficiente (ambas iguais a 0,06895 , não muito longe do valor pretendido de 0,05 ) concordam apenas porque X 1 e X 2 são ortogonais. Exceto em experimentos projetados, é raro a ortogonalidade se manter exatamente. Um desvio da ortogonalidade geralmente causa alterações nas estimativas do coeficiente.X1 0.06895 0.05 X1 X2
fonte
Eu acho que esse problema já foi discutido anteriormente neste site com bastante profundidade, se você soubesse onde procurar. Portanto, provavelmente adicionarei um comentário mais tarde com alguns links para outras perguntas ou poderá editá-lo para fornecer uma explicação mais completa se não encontrar nenhuma.
Existem duas possibilidades básicas: primeiro, o outro IV pode absorver parte da variabilidade residual e, assim, aumentar o poder do teste estatístico do IV inicial. A segunda possibilidade é que você tenha uma variável supressora. Este é um tópico muito contra-intuitivo, mas você pode encontrar algumas informações aqui *, aqui ou este excelente tópico do CV .
* Observe que você precisa ler todo o caminho até o final para chegar à parte que explica as variáveis supressoras; você pode simplesmente pular para lá, mas será melhor atendido lendo a coisa toda.
Edit: como prometido, estou adicionando uma explicação mais completa do meu argumento sobre como o outro IV pode absorver parte da variabilidade residual e, assim, aumentando o poder do teste estatístico do IV inicial. O @whuber adicionou um exemplo impressionante, mas achei que poderia adicionar um exemplo complementar que explica esse fenômeno de uma maneira diferente, o que pode ajudar algumas pessoas a entender o fenômeno com mais clareza. Além disso, demonstro que o segundo IV não precisa estar mais fortemente associado (embora, na prática, quase sempre ocorra esse fenômeno).
As covariáveis em um modelo de regressão podem ser testadas com testes dividindo a estimativa de parâmetro por seu erro padrão, ou podem ser testadas com testes F particionando as somas de quadrados. Quando o SS do tipo III é usado, esses dois métodos de teste serão equivalentes (para saber mais sobre os tipos de SS e os testes associados, pode ser útil ler minha resposta aqui: Como interpretar o SS do tipo I ). Para aqueles que estão começando a aprender sobre métodos de regressão, os testes t costumam ser o foco, porque parecem mais fáceis para as pessoas entenderem. No entanto, esse é um caso em que acho que olhar para a tabela ANOVA é mais útil. Vamos relembrar a tabela ANOVA básica para um modelo de regressão simples:t F t
Aqui é a média de y , y i é o valor observado de y para a unidade (por exemplo, paciente) i , y i é o valor previsto de modelo para a unidade de i , e N é o número total de unidades no estudo. Se você tiver um modelo de regressão múltipla com duas covariáveis ortogonais, a tabela ANOVA poderá ser construída da seguinte maneira:y¯ y yEu y Eu y^Eu Eu N
Aqui y x 1 i ° x 2 , por exemplo, é o valor previsto para a unidade i se o seu valor observado para x 1 foi o seu valor real observado, mas o seu valor observado para x 2 foi a média de x 2 . Obviamente, é possível que ˉ x 2 seja o valor observado de x 2y^x1ix¯2 i x1 x2 x2 x¯2 x2 para algumas observações, caso em que não há ajustes a serem feitos, mas esse normalmente não será o caso. Observe que este método para criar a tabela ANOVA é válido apenas se todas as variáveis forem ortogonais; este é um caso altamente simplificado criado para fins expositivos.
Se estamos a considerar a situação em que os mesmos dados são utilizados para ajustar um modelo ambos com e sem , então os observados y valores e ˉ y será o mesmo. Assim, o SS total deve ser o mesmo nas duas tabelas ANOVA. Além disso, se x 1 e x 2 são ortogonais entre si, então S S x 1 será idêntico nas duas tabelas ANOVA também. Então, como é possível haver somas de quadrados associados a x 2 na tabela? De onde eles vieram se o total de SS e S S x 1x2 y y¯ x1 x2 SSx1 x2 SSx1 são os mesmos? A resposta é que eles vieram de . O df x 2 também é retirado de df res . SSres dfx2 dfres
Agora, o teste de x 1 é o M S x 1 dividido por M S res em ambos os casos. Como M S x 1 é o mesmo, a diferença na significância desse teste vem da mudança em M S res , que mudou de duas maneiras: Começou com menos SS, porque alguns foram atribuídos a x 2 , mas esses são dividido por menos df, já que alguns graus de liberdade foram atribuídos a x 2 também. A mudança na significância / poder do teste F (e equivalentemente noF x1 MSx1 MSres MSx1 MSres x2 x2 F teste t , neste caso), deve-se à forma como essas duas alterações são trocadas. Se mais SS for dado a x 2 , em relação ao df que é dado a x 2 , então M S res diminuirá, fazendo com que o F associado a x 1 aumente e p se torne mais significativo. t x2 x2 MSres F x1 p
O efeito de não precisa ser maior que x 1 para que isso ocorra, mas se não for, as mudanças nos valores de p serão bem pequenas. A única maneira de acabar alternando entre não-significância e significância é se os valores- p estiverem ligeiramente nos dois lados do alfa. Aqui está um exemplo, codificado em :x2 x1 p p
R
De fato, não precisa ser significativo. Considerar:x2
Eles não são nada parecidos com o exemplo dramático do post do @ whuber, mas podem ajudar as pessoas a entender o que está acontecendo aqui.
fonte
Parece que a pergunta do OP pode ser interpretada de duas maneiras diferentes:
Matematicamente, como o OLS funciona, de modo que a adição de uma variável independente possa alterar os resultados de maneira inesperada?
Como modificar meu modelo adicionando uma variável altera o efeito de outra variável independente no modelo?
Já existem várias boas respostas para a pergunta nº 1. E a pergunta 2 pode ser tão óbvia para os especialistas que eles assumem que o OP deve estar fazendo a pergunta 1. Mas acho que a pergunta 2 merece uma resposta, que seria algo como:
Vamos começar com um exemplo. Digamos que você tenha a altura, idade, sexo, etc., de um número de filhos e que queira fazer uma regressão para prever a altura deles.
Você começa com um modelo ingênuo que usa o gênero como a variável independente. E não é estatisticamente significativo. (Como pode ser, você está misturando crianças de 3 anos e adolescentes).
Então você adiciona idade e, de repente, não apenas é significativa quanto à idade, mas também o sexo. Como poderia ser?
Obviamente, no meu exemplo, você pode ver claramente que a idade é um fator importante na altura de uma criança / adolescente. Provavelmente o fator mais importante sobre o qual você tem dados. O gênero também pode ser importante, especialmente para crianças mais velhas e adultos, mas o gênero por si só é um modelo ruim da altura da criança.
Idade mais sexo é um modelo razoável (embora, é claro, simplificado), adequado para a tarefa. Se você adicionar outros dados (interação de idade e sexo, dieta, altura dos pais etc.), poderá criar um modelo ainda melhor, que, é claro, ainda seria simplificado em comparação com a série de fatores que realmente determinam a altura de uma criança, mas, novamente, todos os modelos são versões simplificadas da realidade. (Um mapa do mundo na escala 1: 1 não é muito útil para um viajante.)
Seu modelo original (somente sexo) é muito simplificado - tão simplificado que é essencialmente quebrado. Mas isso não significa que o gênero não seja útil em um modelo melhor.
EDIT: adicionada sugestão de gung sobre o termo de interação idade e sexo.
fonte
Este tópico já tem três respostas excelentes (+1 para cada). Minha resposta é um comentário estendido e uma ilustração ao ponto feito por @gung (o que levou algum tempo para entender):
"Aprimoramento"
A figura a seguir mostra as duas possibilidades listadas por @gung. Considere apenas a parte azul no início (ou seja, ignore todas as linhas vermelhas):
Outra maneira de dizer é que agora o teste está comparando o comprimento de OF com OG, e não com OC como antes; O OF é pequeno e "insignificante" comparado ao CO, mas grande o suficiente para ser "significativo" comparado ao OG.
Essa é exatamente a situação apresentada por @whuber, @gung e @Wayne em suas respostas. Não sei se esse efeito tem um nome padrão na literatura de regressão, então chamarei de "aprimoramento".
Supressão
Não é assim na supressão.
fonte