Como interpreto as 'correlações de efeitos fixos' na minha saída glmer?

26

Eu tenho a seguinte saída:

Generalized linear mixed model fit by the Laplace approximation 
Formula: aph.remain ~ sMFS2 +sAG2 +sSHDI2 +sbare +season +crop +(1|landscape) 

 AIC   BIC    logLik deviance
 4062  4093  -2022   4044

Random effects:
Groups    Name        Variance Std.Dev.
landscape (Intercept) 0.82453  0.90804 
Number of obs: 239, groups: landscape, 45

Fixed effects:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  2.65120    0.14051  18.868   <2e-16     
sMFS2        0.26922    0.17594   1.530   0.1260    
sAG2         0.09268    0.14529   0.638   0.5235    
sSHDI2       0.28345    0.17177   1.650   0.0989  
sbare        0.41388    0.02976  13.907   <2e-16 
seasonlate  -0.50165    0.02729 -18.384   <2e-16 
cropforage   0.79000    0.06724  11.748   <2e-16 
cropsoy      0.76507    0.04920  15.551   <2e-16 

Correlation of Fixed Effects:
           (Intr) sMFS2  sAG2   sSHDI2 sbare  sesnlt crpfrg
sMFS2      -0.016                                          
sAG2        0.006 -0.342                                   
sSHDI2     -0.025  0.588 -0.169                            
sbare      -0.113 -0.002  0.010  0.004                     
seasonlate -0.034  0.005 -0.004  0.001 -0.283              
cropforage -0.161 -0.005  0.012 -0.004  0.791 -0.231       
cropsoy    -0.175 -0.022  0.013  0.013  0.404 -0.164  0.557

Todas as minhas variáveis ​​contínuas (indicadas por um pequeno santes do nome da variável) são padronizadas (z-scores). seasoné uma variável categórica com 2 níveis (precoce e tardio) e cropé uma variável categórica com 3 níveis (milho, forragem e soja).

Essa correlação da matriz de efeitos fixos está realmente me confundindo, porque todas as correlações têm o sinal oposto ao que ocorre quando observo as simples regressões de pares de variáveis. isto é, a matriz de correlação de efeitos fixos sugere uma forte correlação positiva entre cropforagee sbare, quando, de fato, existe uma correlação NEGATIVA muito forte entre essas variáveis ​​- as culturas forrageiras tendem a ter muito menos solo descoberto em comparação com as culturas de milho e soja. Pares de variáveis ​​contínuas têm o mesmo problema, a matriz de correlação de efeitos fixos diz que tudo é o oposto do que deveria ser ... Isso poderia ser devido à complexidade do modelo (não sendo uma simples regressão)? Poderia ter algo a ver com o fato de as variáveis ​​serem padronizadas?

Obrigado.

susie
fonte

Respostas:

27

A saída "correlação de efeitos fixos" não tem o significado intuitivo que a maioria atribuiria a ela. Especificamente, não se trata da correlação das variáveis ​​(como observa o OP). É de fato a correlação esperada dos coeficientes de regressão. Embora isso possa falar com multicolinearidade, não necessariamente. Nesse caso, está dizendo a você que, se você fez o experimento novamente e aconteceu que o coeficiente para cropforageficou menor, é provável que o coeficiente também o faria sbare.

Em parte, seu livro "Analisando Dados Linguísticos: Uma Introdução Prática à Estatística usando R", que trata de lme4, Baayen suprime essa parte da produção e a declara útil apenas em casos especiais. Aqui está uma mensagem listserv em que o próprio Bates descreve como interpretar essa parte da saída:

É uma correlação aproximada do estimador dos efeitos fixos. (Incluo a palavra "aproximado" porque devo, mas nesse caso a aproximação é muito boa.) Não sei como explicar melhor do que isso. Suponha que você tenha extraído uma amostra do MCMC dos parâmetros no modelo e esperaria que a amostra dos parâmetros de efeitos fixos exibisse uma estrutura de correlação como essa matriz.

russellpierce
fonte
3
Sinto muito, essa provavelmente será uma pergunta boba, mas por que é importante considerar essa correlação? Quero dizer, em que situações essa produção deve ser considerada?
mtao
11
@Teresa Depende do que você está usando. Se você se importa com a interpretação, está dizendo como são confusas duas fontes de efeito. Se você se preocupa com a previsão, ele mostra um pouco sobre como os outros modelos de previsão podem se parecer e fornece algumas dicas de como o modelo pode mudar se você deixar cair os preditores.
russellpierce
11
Então, imagine que eu tenha duas variáveis ​​nessa saída com uma correlação de 0,90, por exemplo. Em termos de interpretação, suponho que devo abandonar um deles, porque eles são "confusos" e parecem estar dizendo a mesma informação. Quanto à previsão, se eu largar um deles, outros modelos não devem mudar tanto, pois estão correlacionados, estou certo? Ou estou interpretando isso errado?
Mtao 5/04
3
Sabe, acho que você está ecoando o que eu disse corretamente; mas, pensando bem, não tenho 100% de certeza de que estou certo. Você pode ser melhor atendido abrindo uma nova pergunta - que terá mais atenção na sua pergunta e aumentará a probabilidade de você receber uma resposta correta.
russellpierce
11
@russellpierce, obrigado por esta resposta. Uma pergunta, no entanto, aprendi que a multicolinearidade ocorre quando preditores se correlacionam entre si. Mas na sua resposta você diz que é a correlação dos coeficientes de regressão (não dos preditores) que pode falar com a multicolinearidade. Por que não correlacionar apenas os preditores em vez dos coeficientes estimados?
Locus
0

Se suas correlações negativas e positivas são iguais em seu valor e apenas seu sinal é diferente, você está inserindo a variável por engano. Mas não acho que esse seja o seu caso, pois você já parece bastante avançado nas estatísticas.

A inconsistência que você está enfrentando pode ser e provavelmente é causada por multicolinearidade. Significa quando algumas variáveis independentes compartilham alguns efeitos sobrepostos ou, em outras palavras, são correlacionadas . por exemplo, modelar as variáveis ​​"taxa de crescimento" e "tamanho do tumor" pode causar multicolinearidade, pois é possível e provável que tumores maiores tenham maiores taxas de crescimento (antes de serem detectados) per se. Isso pode confundir o modelo. E se o seu modelo tiver poucas variáveis ​​independentes correlacionadas entre si, interpretar os resultados às vezes pode se tornar bastante difícil. Às vezes, leva a coeficientes totalmente estranhos, mesmo a tal extensão que o sinal de algumas das correlações se inverte.

Você deve primeiro detectar as fontes da multicolinearidade e lidar com elas e, em seguida, executar novamente sua análise.

Vic
fonte
11
-1; enganoso. O OP não inseriu suas variáveis ​​incorretamente e a multicolinearidade pode não ser um problema. Uma correlação entre os efeitos fixos brutos pode falar até esse ponto, mas o paradoxo de Simpson pode permitir que essa abordagem o leve na direção errada.
russellpierce
11
Por que "enganoso"? Qual parte foi enganosa? Conversei com muita clareza e evitei tirar conclusões claras. O que eu disse é de fato um dos sinais de multicolinearidade e nos diz que devemos verificar os VIFs também. Mas não entendo como você sabe ou tem certeza de que "o OP não inseriu suas variáveis ​​incorretamente e a multicolinearidade pode não ser um problema".
26413 Vic
11
Além disso, você nem leu meu post completamente (e diminuiu o voto e o chamou de enganador). Se você tivesse visto, sugeri que o OP deveria verificar os VIFs (como indicadores oficiais do multiC) para garantir se essas altas correlações estão realmente apontando para o MC ou não? de qualquer maneira, estou aberto a aprender desde que seja livre de arrogância e ataques pessoais.
26413 Vic
11
@ Vic: Não vi seus comentários até agora. Não quis que você visse minha resposta como um ataque pessoal. Eu achava que era enganosa e forneci o que acredito ser a resposta correta acima. Eu li sua postagem na íntegra na época. Não sei se investiguei os comentários ou não. Eu mantenho meu voto negativo.
russellpierce
11
... mas admito que posso estar enganado nesse julgamento. No entanto, parecia melhor explicar por que votei com menos votos do que com apenas votos negativos.
russellpierce
0

Pode ser útil mostrar que essas correlações entre efeitos fixos são obtidas convertendo o "vcov" do modelo em uma matriz de correlação. Se fité o seu modelo lme4 instalado,

vc <- vcov(fit)

# diagonal matrix of standard deviations associated with vcov
S <- sqrt(diag(diag(vc), nrow(vc), nrow(vc)))

# convert vc to a correlation matrix
solve(S) %*% vc %*% solve(S)

e as correlações entre efeitos fixos são as entradas fora da diagonal.

Ed Merkle
fonte