Estou executando um modelo binomial negativo e uma das minhas variáveis preditoras é uma variável de contagem. Como essa variável estava fortemente inclinada, decidi transformá-la em log.
No entanto, o efeito dessa variável é considerado não linear. No entanto, assim que incluo o termo quadrado no meu modelo, obtenho VIFs dessas duas variáveis que são> 20, enquanto todos os outros preditores permanecem estáveis nos VIFs entre 1 e 5.
No meu entendimento atual, o relacionamento não deve ser linear e, portanto, não deve surgir multicolinearidade.
Alguém pode explicar a causa da multicolinearidade e dar possíveis soluções para esse problema?
multicollinearity
logarithm
vif
statsnewby
fonte
fonte
Respostas:
Exceto por contagens muito pequenas,registro( x)2 é essencialmente uma função linear de registro( X ) :
As linhas coloridas são mínimos quadradosregistro( x)2 vs registro( X ) para várias faixas de contagem x . Eles são extremamente bons uma vezx excede 10 (e ainda muito bom mesmo quando x > 4 ou então).
A introdução do quadrado de uma variável às vezes é usada para testar a qualidade do ajuste, mas (na minha experiência) raramente é uma boa escolha como variável explicativa. Para explicar uma resposta não linear, considere estas opções:
Estude a natureza da não linearidade. Selecione variáveis apropriadas e / ou transformação para capturá-lo.
Mantenha a contagem em si no modelo. Ainda haverá colinearidade para contagens maiores, portanto, considere criar um par de variáveis ortogonais dex e registro( X ) para obter um ajuste numericamente estável.
Use splines dex (e / ou registro( X ) ) para modelar a não linearidade.
Ignore o problema completamente. Se você tiver dados suficientes, um VIF grande pode ser inconseqüente. A menos que seu objetivo seja obter estimativas precisas de coeficientes (que sua vontade de transformar sugere que não é o caso), a colinearidade dificilmente importa.
fonte
A fonte da colinearidade é quef( x ) =x2 . Uma maneira de reduzir a correlação entrex e x2 é centralizar x . Deixeiz= x - E( X ) e calcular z2 . Como o extremo inferior da escala agora possui grandes valores absolutos, seu quadrado se torna grande, tornando a relação entrez e z2 menos linear do que aquele entre x e x2 . Este conselho vem do The Analysis Factor: http://www.theanalysisfactor.com/centering-for-multicollinearity-between-main-effects-and-interaction-terms/
Nota : Ao interpretar os efeitos, lembre-se de que você dimensionou a covariável. Além disso, alguns pesquisadores podem ter cuidado com o dimensionamento, pois os resultados do seu modelo dependem dos dados. Aqui está uma perspectiva de Andrew Gelman sobre esse assunto: http://andrewgelman.com/2009/07/11/when_to_standar/
fonte