Aprendi na aula de modelos lineares que, se dois preditores estiverem correlacionados e ambos forem incluídos em um modelo, um será insignificante. Por exemplo, suponha que o tamanho de uma casa e o número de quartos estejam correlacionados. Ao prever o custo de uma casa usando esses dois preditores, um deles pode ser descartado porque ambos fornecem muitas das mesmas informações. Intuitivamente, isso faz sentido, mas tenho algumas perguntas mais técnicas:
- Como esse efeito se manifesta nos valores-p dos coeficientes de regressão ao incluir apenas um ou incluir ambos os preditores no modelo?
- Como a variação dos coeficientes de regressão é afetada pela inclusão de ambos os preditores no modelo ou por apenas um?
- Como sei qual preditor o modelo escolherá ser menos significativo?
- Como a inclusão de apenas um ou de ambos os preditores altera o valor / variação do meu custo previsto?
regression
multiple-regression
p-value
linear-model
multicollinearity
Vivek Subramanian
fonte
fonte
Respostas:
O tópico que você está perguntando é multicolinearidade . Você pode ler alguns dos tópicos no CV categorizados sob a tag multicolinearidade . A resposta do @ whuber vinculada acima em particular também vale o seu tempo.
A afirmação de que "se dois preditores são correlacionados e ambos são incluídos em um modelo, um será insignificante", não está correta. Se houver um efeito real de uma variável, a probabilidade de que a variável seja significativa é função de várias coisas, como a magnitude do efeito, a magnitude da variação do erro, a variação da própria variável, a quantidade de dados. você possui e o número de outras variáveis no modelo. Se as variáveis estão correlacionadas também é relevante, mas não substitui esses fatos. Considere a seguinte demonstração simples em
R
:Pensar no que aconteceria se você incluísse as duas variáveis correlacionadas versus apenas uma é semelhante, mas um pouco mais complicada do que a abordagem discutida acima. Isso ocorre porque não incluir uma variável significa que o modelo usa menos graus de liberdade, o que altera a variação residual e tudo o que é calculado a partir disso (incluindo a variação dos coeficientes de regressão). Além disso, se a variável não incluída realmente estiver associada à resposta, a variação na resposta devido a essa variável será incluída na variação residual, tornando-a maior do que seria. Assim, várias coisas mudam simultaneamente (a variável está correlacionada ou não com outra variável e a variação residual), e o efeito preciso de abandonar / incluir a outra variável dependerá de como elas serão trocadas.
Armado com uma compreensão do VIF, aqui estão as respostas para suas perguntas:
fonte
Isso é mais um comentário, mas eu queria incluir um gráfico e algum código.
Penso que a afirmação "se dois preditores estão correlacionados e ambos são incluídos em um modelo, um será insignificante" é falso se você quer dizer "apenas um". A significância estatística binária não pode ser usada para seleção de variáveis.
Aqui está o meu contra-exemplo usando uma regressão do percentual de gordura corporal na circunferência da coxa, espessura da dobra da pele * e circunferência do braço:
Como você pode ver na tabela de regressão, tudo é insignificante, embora os valores de p variem um pouco.
Então, como sabemos quais preditores seriam menos significativos? A variação em um regressor pode ser classificada em dois tipos:
* A dobra da pele é a largura de uma dobra da pele tomada sobre o músculo tríceps e medida com uma pinça.
fonte
Como o @whuber observou, essa é uma pergunta complexa. No entanto, a primeira frase da sua postagem é uma grande simplificação. Geralmente, duas (ou mais) variáveis serão correlacionadas e ambas relacionadas à variável dependente. Se eles são significativos ou não, depende do tamanho do efeito e do tamanho da célula.
No seu exemplo, suponha que, para um determinado tamanho de casa, as pessoas preferissem menos cômodos (pelo menos em Nova York, isso não é razoável - indicaria edifícios mais antigos, paredes mais sólidas etc. e pode ser um marcador de vizinhança). Então ambos podem ser significativos, em direções opostas!
Ou, suponha que as duas variáveis fossem tamanho da casa e vizinhança - elas seriam correlacionadas, com certeza, casas maiores em bairros melhores -, mas elas ainda poderiam ser significativas e certamente relacionadas ao preço da habitação.
Além disso, usando apenas complexidades de máscaras "correlacionadas". As variáveis podem estar fortemente relacionadas sem serem correlacionadas.
fonte