Multicolinearidade entre ln (x) e ln (x) ^ 2

7

Estou executando um modelo binomial negativo e uma das minhas variáveis ​​preditoras é uma variável de contagem. Como essa variável estava fortemente inclinada, decidi transformá-la em log.

No entanto, o efeito dessa variável é considerado não linear. No entanto, assim que incluo o termo quadrado no meu modelo, obtenho VIFs dessas duas variáveis ​​que são> 20, enquanto todos os outros preditores permanecem estáveis ​​nos VIFs entre 1 e 5.

No meu entendimento atual, o relacionamento não deve ser linear e, portanto, não deve surgir multicolinearidade.

Alguém pode explicar a causa da multicolinearidade e dar possíveis soluções para esse problema?

statsnewby
fonte
Bem, f (x) = x ^ 2, que é onde a colinearidade surge. Se você deseja reduzir a colinearidade entre x e x ^ 2, sugiro centralizar x e depois quadrar a covariável centralizada. Veja esta publicação: theanalysisfactor.com/…
Brash Equilibrium
Qual é o domínio de x? Para valores muito pequenosx pode ser considerado aproximadamente x2.
Dan
x é entre 1 e 650, mas após a transformação de log os valores são, obviamente, muito menor (entre 0 e 2,8)
statsnewby
Parece que você assume a relação entre uma variável e seu quadrado (é o log de xe o quadrado desse log, mas que não é tão importante aqui) não é linear e, portanto, não são correlacionados. Outros já explicaram o erro, mas você pode estar interessado neste tópico relacionado: correlação de Pearson entre uma variável e seu quadrado .
quer

Respostas:

12

Exceto por contagens muito pequenas, log(x)2 é essencialmente uma função linear de log(x):

Figura mostrando gráficos e ajustes lineares

As linhas coloridas são mínimos quadrados log(x)2 vs log(x) para várias faixas de contagem x. Eles são extremamente bons uma vezx excede 10 (e ainda muito bom mesmo quando x>4 ou então).

A introdução do quadrado de uma variável às vezes é usada para testar a qualidade do ajuste, mas (na minha experiência) raramente é uma boa escolha como variável explicativa. Para explicar uma resposta não linear, considere estas opções:

  • Estude a natureza da não linearidade. Selecione variáveis ​​apropriadas e / ou transformação para capturá-lo.

  • Mantenha a contagem em si no modelo. Ainda haverá colinearidade para contagens maiores, portanto, considere criar um par de variáveis ​​ortogonais dex e log(x) para obter um ajuste numericamente estável.

  • Use splines de x (e / ou log(x)) para modelar a não linearidade.

  • Ignore o problema completamente. Se você tiver dados suficientes, um VIF grande pode ser inconseqüente. A menos que seu objetivo seja obter estimativas precisas de coeficientes (que sua vontade de transformar sugere que não é o caso), a colinearidade dificilmente importa.

whuber
fonte
Esta é a resposta que eu preferiria, pois trata do log(x)componente da pergunta, que não fiz abaixo.
Equilíbrio Brash
obrigado pela resposta, que deixou perfeitamente claro! Como acompanhamento - quero mostrar retornos decrescentes para essa variável e só estou ciente da opção de introduzir um termo ao quadrado. Qual seria uma abordagem mais apropriada considerando o uso de um log?
Home
Qualquer uma das quatro opções com marcadores seria uma possibilidade.
whuber
1

A fonte da colinearidade é que f(x)=x2. Uma maneira de reduzir a correlação entrex e x2 é centralizar x. Deixeiz=xE(x) e calcular z2. Como o extremo inferior da escala agora possui grandes valores absolutos, seu quadrado se torna grande, tornando a relação entrez e z2 menos linear do que aquele entre x e x2. Este conselho vem do The Analysis Factor: http://www.theanalysisfactor.com/centering-for-multicollinearity-between-main-effects-and-interaction-terms/

Nota : Ao interpretar os efeitos, lembre-se de que você dimensionou a covariável. Além disso, alguns pesquisadores podem ter cuidado com o dimensionamento, pois os resultados do seu modelo dependem dos dados. Aqui está uma perspectiva de Andrew Gelman sobre esse assunto: http://andrewgelman.com/2009/07/11/when_to_standar/

Equilíbrio Brash
fonte
Obrigado! Eu tenho duas perguntas sobre essa abordagem: primeiro, x é o que você está se referindo ao x não transformado ou ln (x)? Centrar ln (x) não levou a grandes melhorias (VIF de 16). Em segundo lugar, você quer dizer a média de X com E (x), portanto, significa centralizar a variável?
statsnewby
Ah, bom ponto, esqueci essa parte da sua pergunta. Eu me referiria à resposta do @whuber.
Equilíbrio Brash