Encontrei uma referência em um artigo que é como:
Segundo Tabachnick e Fidell (1996), as variáveis independentes com correlação bivariada maior que 0,70 não devem ser incluídas na análise de regressão múltipla.
Problema: usei em um projeto de regressão múltipla 3 variáveis correlacionadas> 0,80, VIF em cerca de 0,2 - 0,3, Tolerância ~ 4- 5. Não posso excluir nenhuma delas (preditores e resultados importantes). Quando regredi o resultado nos 2 preditores que se correlacionavam em 0,80, eles permaneceram ambos significativos, cada um prevendo variações importantes, e essas mesmas duas variáveis têm os maiores coeficientes de correlação parcial e semipartial entre as 10 variáveis incluídas (5 controles).
Pergunta: Meu modelo é válido apesar das altas correlações? Todas as referências muito bem-vindas!
Obrigado pelas respostas!
Não usei Tabachnick e Fidell como orientação; encontrei essa referência em um artigo que lida com alta colinearidade entre preditores.
Então, basicamente, eu tenho poucos casos para o número de preditores no modelo (muitas variáveis de controle categóricas e codificadas por modelo - idade, posse, sexo, etc.) - 13 variáveis para 72 casos. O Índice de Condição é ~ 29 com todos os controles dentro e ~ 23 sem eles (5 variáveis).
Não posso descartar nenhuma variável ou usar a análise fatorial para combiná-las, porque teoricamente elas têm sentido por si mesmas. É tarde demais para obter mais dados. Como estou conduzindo a análise no SPSS, talvez seja melhor encontrar uma sintaxe para a regressão de crista (embora eu não tenha feito isso antes e a interpretação dos resultados seja nova para mim).
Se importa, quando eu conduzi a regressão passo a passo, as mesmas duas variáveis altamente correlacionadas permaneceram os únicos preditores significativos do resultado.
E ainda não entendo se as correlações parciais altas para cada uma dessas variáveis são importantes para explicar por que as mantive no modelo (caso a regressão de crista não possa ser executada).
Você diria que o "diagnóstico de regressão: identificando dados influentes e fontes de colinearidade / David A. Belsley, Edwin Kuh e Roy E. Welsch, 1980" seria útil para entender a multicolinearidade? Ou outras referências podem ser úteis?
Respostas:
O principal problema não é a correlação, mas a colinearidade (ver obras de Belsley, por exemplo). É melhor testado usando índices de condição (disponível em
R
,SAS
e provavelmente outros programas também. A correlação é necessária nem uma condição suficiente para co-linearidade. Índices Condição mais de 10 (por Belsley) indicam collinearity moderada, mais de 30 grave, mas também depende sobre quais variáveis estão envolvidas na colinearidade.Se você encontrar alta colinearidade, isso significa que suas estimativas de parâmetros são instáveis. Ou seja, pequenas alterações (às vezes na quarta figura significativa) em seus dados podem causar grandes alterações nas estimativas de seus parâmetros (às vezes até revertendo seus sinais). Isso é uma coisa ruim.
As soluções são 1) Obtendo mais dados 2) Descartando uma variável 3) Combinando as variáveis (por exemplo, com mínimos quadrados parciais) e 4) Executando a regressão da crista, que fornece resultados tendenciosos, mas reduz a variação nas estimativas.
fonte