Nos modelos lineares, precisamos verificar se existe um relacionamento entre as variáveis explicativas. Se eles se correlacionam demais, há colinearidade (ou seja, as variáveis se explicam parcialmente). Atualmente, estou apenas olhando para a correlação pareada entre cada uma das variáveis explicativas.
Pergunta 1: O que classifica como muita correlação? Por exemplo, uma correlação de Pearson de 0,5 é demais?
Pergunta 2: Podemos determinar completamente se há colinearidade entre duas variáveis com base no coeficiente de correlação ou depende de outros fatores?
Pergunta 3: Uma verificação gráfica do gráfico de dispersão das duas variáveis adiciona algo ao que o coeficiente de correlação indica?
Respostas:
Não existe uma 'linha clara' entre pouca colinearidade e muita colinearidade (exceto no sentido trivial de que é definitivamente demais). Os analistas normalmente não pensam em r = 0,50 como muita colinearidade entre duas variáveis. Uma regra prática em relação à multicolinearidade é que você tem muito quando o VIF é maior que 10 (provavelmente porque temos 10 dedos, então use essas regras pelo valor). A implicação seria que você tem muita colinearidade entre duas variáveis se r ≥ 0,95 . Você pode ler mais sobre o VIF e a multicolinearidade na minha resposta aqui:r = 1,0 r = 0,50 r ≥ 0,95 Qual é o efeito de ter preditores correlacionados em um modelo de regressão múltipla?
É sempre inteligente olhar para seus dados, e não simplesmente resumos numéricos / resultados de testes. A referência canônica aqui é o quarteto de Anscomb .
fonte
Minha opinião sobre as três perguntas é
Muitos autores argumentam que a (multi) colinearidade não é um problema. Dê uma olhada aqui e aqui para uma opinião bastante ácida sobre o assunto. A conclusão é que a multicolinearidade não afeta os testes de hipóteses além de ter um tamanho de amostra menor (efetivo). Será difícil para você interpretar os coeficientes de regressão se fizer uma regressão, por exemplo, mas você não violará nenhuma suposição básica se optar por fazê-lo.
Eu acho que existem várias maneiras de medir a correlação entre duas variáveis, a partir do cálculo do coeficiente de correlação de Pearson (se você assumir linearidade, e, aparentemente, você fez isso), para postos de Spearman , correlação distância , e até mesmo fazendo PCA em seu conjunto de dados. Mas eu deixaria a resposta desta pergunta para pessoas mais bem informadas do que eu.
IMO, a resposta é não som.
fonte
Uma maneira comum de avaliar a colinearidade é com fatores de inflação de variação (VIFs). Isso pode ser alcançado em R usando a função 'vif' dentro do pacote 'car'. Isso tem uma vantagem em olhar apenas as correlações entre duas variáveis, pois avalia simultaneamente a correlação entre uma variável e o restante das variáveis no modelo. Em seguida, fornece uma pontuação única para cada preditor no modelo.
Como mencionado acima, não há um ponto de corte rápido e difícil, mas as pontuações do VIF geralmente são decididas como problemáticas uma vez que estão entre 5 e 10. Eu uso regras de campo específicas para isso. Além disso, não há nada necessariamente inválido no uso de preditores correlacionados (desde que não estejam perfeitamente correlacionados). Você precisará apenas de mais dados para separar os efeitos. Quando você não tiver dados suficientes, haverá grandes incertezas nas estimativas de parâmetros dos preditores correlacionados e essas estimativas serão sensíveis à nova amostragem.
Para responder às suas perguntas especificamente:
Não use coeficientes de correlação. use VIFs do modelo com todos os preditores e sem interações. Os VIFs de 5 a 10 estão indicando muita correlação; seu ponto de corte específico depende do que você precisa fazer com o modelo.
Depende dos outros preditores do modelo, e é por isso que é benéfico usar VIFs.
Não! As estatísticas quantificarão melhor o que você está observando com o gráfico de dispersão. A menos que haja uma super violação das suposições do OLS ao regredir seus preditores entre si.
fonte