Sobre a utilidade da correlação interceptar-inclinação em modelos multiníveis

8

Em seu livro "Análise multinível: uma introdução à modelagem multinível básica e avançada" (1999), Snijders & Bosker (cap. 8, seção 8.2, página 119) disseram que a correlação interceptar-inclinação, calculada como covariância interceptada-dividida dividia pela raiz quadrada do produto da variação de interceptação e variação de inclinação, não é delimitada entre -1 e +1 e pode ser até infinito.

Diante disso, não achei que deveria confiar. Mas eu tenho um exemplo para ilustrar. Em uma das minhas análises, que tem raça (dicotomia), idade e idade * raça como efeitos fixos, coorte como efeito aleatório e variável de dicotomia racial como inclinação aleatória, minha série de gráficos de dispersão mostra que a inclinação não varia muito entre os valores da minha variável cluster (ou seja, coorte) e não vejo a inclinação se tornando menos ou mais íngreme entre as coortes. O Teste da Razão de Verossimilhança também mostra que o ajuste entre os modelos de interceptação aleatória e inclinação aleatória não é significativo, apesar do tamanho total da amostra (N = 22.156). E, no entanto, a correlação intercepto-inclinação foi próxima de -0,80 (o que sugeriria uma forte convergência na diferença de grupo na variável Y ao longo do tempo, ou seja, entre as coortes).

Eu acho que é uma boa ilustração de por que não confio na correlação interceptar-inclinação, além do que Snijders & Bosker (1999) já disseram.

Devemos realmente confiar e relatar a correlação interceptar-inclinação em estudos multiníveis? Especificamente, qual é a utilidade dessa correlação?

EDIT 1: Acho que não vai responder à minha pergunta, mas a Gung me pediu para fornecer mais informações. Veja abaixo, se ajudar.

Os dados são da Pesquisa Social Geral. Para a sintaxe, usei o Stata 12, para ler:

xtmixed wordsum bw1 aged1 aged2 aged3 aged4 aged6 aged7 aged8 aged9 bw1aged1 bw1aged2 bw1aged3 bw1aged4 bw1aged6 bw1aged7 bw1aged8 bw1aged9 || cohort21: bw1, reml cov(un) var
  • wordsum é uma pontuação no teste de vocabulário (0-10),
  • bw1 é a variável étnica (preto = 0, branco = 1),
  • aged1-aged9 são variáveis ​​fictícias da idade,
  • bw1aged1-bw1aged9 são a interação entre etnia e idade,
  • cohort21 é minha variável de coorte (21 categorias, codificadas de 0 a 20).

A saída diz:

    . xtmixed wordsum bw1 aged1 aged2 aged3 aged4 aged6 aged7 aged8 aged9 bw1aged1 bw1aged2 bw1aged3 bw1aged4 bw1aged6 bw1aged7 bw1aged8 bw1aged9 || cohort21: bw1, reml 
> cov(un) var

Performing EM optimization: 

Performing gradient-based optimization: 

Iteration 0:   log restricted-likelihood = -46809.738  
Iteration 1:   log restricted-likelihood = -46809.673  
Iteration 2:   log restricted-likelihood = -46809.673  

Computing standard errors:

Mixed-effects REML regression                   Number of obs      =     22156
Group variable: cohort21                        Number of groups   =        21

                                                Obs per group: min =       307
                                                               avg =    1055.0
                                                               max =      1728


                                                Wald chi2(17)      =   1563.31
Log restricted-likelihood = -46809.673          Prob > chi2        =    0.0000

------------------------------------------------------------------------------
     wordsum |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         bw1 |   1.295614   .1030182    12.58   0.000     1.093702    1.497526
       aged1 |  -.7546665    .139246    -5.42   0.000    -1.027584   -.4817494
       aged2 |  -.3792977   .1315739    -2.88   0.004    -.6371779   -.1214175
       aged3 |  -.1504477   .1286839    -1.17   0.242    -.4026635     .101768
       aged4 |  -.1160748   .1339034    -0.87   0.386    -.3785207    .1463711
       aged6 |  -.1653243   .1365332    -1.21   0.226    -.4329245     .102276
       aged7 |  -.2355365    .143577    -1.64   0.101    -.5169423    .0458693
       aged8 |  -.2810572   .1575993    -1.78   0.075    -.5899461    .0278318
       aged9 |  -.6922531   .1690787    -4.09   0.000    -1.023641   -.3608649
    bw1aged1 |  -.2634496   .1506558    -1.75   0.080    -.5587297    .0318304
    bw1aged2 |  -.1059969   .1427813    -0.74   0.458    -.3858431    .1738493
    bw1aged3 |  -.1189573   .1410978    -0.84   0.399     -.395504    .1575893
    bw1aged4 |    .058361   .1457749     0.40   0.689    -.2273525    .3440746
    bw1aged6 |   .1909798   .1484818     1.29   0.198    -.1000393    .4819988
    bw1aged7 |   .2117798    .154987     1.37   0.172    -.0919891    .5155486
    bw1aged8 |   .3350124    .167292     2.00   0.045     .0071262    .6628987
    bw1aged9 |   .7307429   .1758304     4.16   0.000     .3861217    1.075364
       _cons |   5.208518   .1060306    49.12   0.000     5.000702    5.416334
------------------------------------------------------------------------------

------------------------------------------------------------------------------
  Random-effects Parameters  |   Estimate   Std. Err.     [95% Conf. Interval]
-----------------------------+------------------------------------------------
cohort21: Unstructured       |
                    var(bw1) |   .0049087    .010795      .0000659    .3655149
                  var(_cons) |   .0480407   .0271812      .0158491     .145618
              cov(bw1,_cons) |  -.0119882    .015875     -.0431026    .0191262
-----------------------------+------------------------------------------------
               var(Residual) |   3.988915   .0379483      3.915227     4.06399
------------------------------------------------------------------------------
LR test vs. linear regression:       chi2(3) =    85.83   Prob > chi2 = 0.0000

Note: LR test is conservative and provided only for reference.

O gráfico de dispersão que produzi é mostrado abaixo. Existem nove gráficos de dispersão, um para cada categoria da minha variável de idade.

insira a descrição da imagem aqui

EDIT 2:

. estat recovariance

Random-effects covariance matrix for level cohort21

             |       bw1      _cons 
-------------+----------------------
         bw1 |  .0049087            
       _cons | -.0119882   .0480407

Há outra coisa que gostaria de acrescentar: o que me incomoda é que, com relação à covariância / correlação de intercepto-inclinação, Joop J. Hox (2010, p. 90) em seu livro "Técnicas e aplicações de análise multinível, segunda edição" disse isso :

É mais fácil interpretar essa covariância se apresentada como uma correlação entre os resíduos de interceptação e inclinação. ... Em um modelo sem outros preditores, exceto a variável tempo, essa correlação pode ser interpretada como uma correlação comum, mas nos modelos 5 e 6 é uma correlação parcial, condicional aos preditores no modelo.

Assim, parece que nem todos concordariam com Snijders & Bosker (1999, p. 119), que acreditam que "a idéia de uma correlação não faz sentido aqui" porque não está limitada entre [-1, 1].

Meng Hu
fonte
Você pode postar as parcelas? Você pode adicionar mais informações sobre seus dados e seu modelo? Você pode postar a saída da análise e o código usado para gerá-la?
gung - Restabelece Monica
Obrigado pelo seu comentário. Acho que não responde à minha pergunta sobre a utilidade da "correlação" de intercepto-inclinação, mas editei meu Q e adicionei as informações solicitadas. Espero que ajude de qualquer maneira.
Meng Hu
Obrigado, Meng Hu. Não sei se isso vai ajudar as pessoas ou não, mas pode, e não vai doer.
gung - Restabelece Monica
Não tendo o livro, eu me pergunto se eles disseram isso sobre a covariância da inclinação e interceptação, não a correlação. Com N = 22k, você não pode postar os BLUPs, mas você pode postar sua matriz de variância-covariância? Acho que você está usando Stata, o que não sei, mas deve ser possível.
gung - Restabelece Monica
A covariância de variância dos efeitos aleatórios deveria ter sido exibida na saída que adicionei anteriormente. Mas editei a pergunta novamente. Dito isto, não me lembro de Snijders & Bosker (1999) ter dito algo em particular sobre a covariância da interceptação. Eles dizem que devemos sempre incluí-lo em um modelo aleatório de declive. Eles também explicam o que significa ter um coeficiente negativo / positivo para essa covariância. Mas é tudo, eu acho. A propósito, também adicionei a passagem de Hox (2010), que acredita que a correlação interceptar-inclinação pode ser interpretada como uma correlação comum.
Meng Hu

Respostas:

4

Eu enviei um e-mail para vários estudiosos (quase 30 pessoas) várias semanas atrás. Poucos deles enviaram seus e-mails (sempre e-mails coletivos). Eugene Demidenko foi o primeiro a responder:

cov / sqrt (var1 * var2) está sempre dentro de [-1,1], independentemente da interpretação: podem ser estimativas de interceptação e inclinação, duas inclinações, etc. O fato de -1 <= cov / sqrt (var1 * var2 ) <= 1 decorre da desigualdade de Cauchy e é sempre verdadeira. Assim, rejeito a declaração de Snijders & Bosker. Talvez esteja faltando alguma outra informação?

Isto foi seguido por um email de Thomas Snijders:

As informações que faltam são as que foram realmente escritas sobre isso nas páginas 122, 123, 124, 129 de Snijders & Bosker (2ª edição 2012). Não se trata de duas afirmações concorrentes, das quais não mais do que uma pode ser verdadeira; trata-se de duas interpretações diferentes.

Na p. 123 é introduzida uma função de variação quadrática, \ sigma_0 ^ 2 + 2 \ sigma_ {01} * x + \ sigma_1 ^ 2 * x ^ 2 e a seguinte observação é feita: "Esta fórmula pode ser usada sem a interpretação de que \ sigma_0 ^ 2 e \ sigma_1 ^ 2 são variações e \ sigma_ {01} uma covariância; esses parâmetros podem ser qualquer número.A fórmula implica apenas que a variação residual é uma função quadrática de x.

Deixe-me citar um parágrafo completo da p. 129, sobre uma função de variação quadrática no nível dois; note que UM PODE INTERPRETAR que \ tau_0 ^ 2 e \ tau_1 ^ 2 são as variações de nível dois da interceptação aleatória e da inclinação aleatória, e \ tau_ {01} é sua covariância, mas isso é explicitamente colocado no horizonte:

"Os parâmetros \ tau_0 ^ 2, \ tau_1 ^ 2 e \ tau_ {01}, como na seção anterior, não devem ser interpretados como variâncias e uma covariância correspondente. A interpretação é por meio da função de variância (8.7 ) [nota ts: no livro, isso é relatado erroneamente como 8.8]. Portanto, não é necessário que \ tau_ {01} ^ 2 <= \ tau_0 ^ 2 * \ tau_1 ^ 2. Para colocar de outra maneira, 'correlações' definido formalmente por \ tau_ {01} / (\ tau_0 * \ tau_1) pode ser maior que 1 ou menor que -1, até infinito, porque a idéia de uma correlação não faz sentido aqui. Um exemplo disso é fornecido pelo função de variação linear para a qual \ tau_1 ^ 2 = 0 e apenas os parâmetros \ tau_0 ^ 2 e \ tau_ {01} são usados. "

A função de variação é uma função quadrática de x (a variável "com inclinação aleatória"), e a variação do resultado é essa mais a variação do nível 1. Desde que seja positivo para todos os x, a variação modelada é positiva. (Um requisito extra é que a matriz de covariância correspondente seja definida positivamente.)

Alguns antecedentes adicionais disso são a existência de diferenças nos algoritmos de estimativa de parâmetros no software. Em alguns softwares multiníveis (efeitos aleatórios), é exigido que as matrizes de covariância dos efeitos aleatórios sejam semi-definidas positivas em todos os níveis. Em outro software, é exigido apenas que a matriz de covariância estimada resultante para os dados observados seja semi-definida positiva. Isso implica que a idéia de coeficientes aleatórios de variáveis ​​latentes seja abandonada, e o modelo especifica uma certa estrutura de covariância para os dados observados; nem mais nem menos; nesse caso, a interpretação citada de Joop Hox não se aplica. Observe que Harvey Goldstein já fazia muito tempo utilizava funções de variação linear no nível um, representadas por uma variação de inclinação zero e correlação de interceptação de inclinação diferente de zero no nível um; isso foi e é chamado de "variação complexa"; veja, por exemplo, http://www.bristol.ac.uk/media-library/sites/cmm/migrated/documents/modelling-complex-variation.pdf

E então Joop Hox respondeu:

No software MLwiN, é realmente possível estimar um termo de covariância e, ao mesmo tempo, restringir uma das variações a zero, o que tornaria a "correlação" infinita. E sim, alguns softwares permitirão estimativas como variações negativas (o software SEM geralmente permite isso). Portanto, minhas declarações não foram completamente precisas. Eu me referi a estruturas aleatórias não estruturadas "normais". Deixe-me acrescentar que, se você redimensionar a variável com a inclinação aleatória para ter um ponto zero diferente, as variações e covariâncias geralmente mudam. Portanto, a correlação só é interpretável se a variável preditora tiver um ponto zero fixo, isto é, medido em uma escala de razão. Isso se aplica aos modelos de curva de crescimento, onde a correlação entre status inicial e taxa de crescimento é algumas vezes interpretada. Nesse caso, o valor zero deve ser o '

E ele enviou outro e-mail:

Enfim, acho que a explicação de Tom abaixo se encaixa melhor no estilo da colaboração Snijders / Bosker do que no meu estilo mais informal. Eu acrescentaria à página 90 uma nota de rodapé informando algo como "Observe que os valores dos parâmetros na parte aleatória são estimativas. A interpretação das covariâncias padronizadas como correlações comuns pressupõe que não há restrições nas variações e que o software não permite estimativas negativas. Se a parte aleatória não estiver estruturada, a interpretação como (co) variações comuns é geralmente sustentável. ".

Note que escrevi sobre a interpretação da correlação no capítulo longitudinal. Na modelagem de curvas de crescimento, é muito tentador interpretar essa correlação como um resultado substantivo, e isso é perigoso porque o valor depende da "métrica do tempo". Se você estiver interessado, recomendo ir ao site de Lesa Hoffman ( http://www.lesahoffman.com/ ).

Então, acho que, na minha situação, onde especifiquei uma covariância não estruturada para os efeitos aleatórios, devo interpretar a correlação interceptar-inclinação como uma correlação comum.

Meng Hu
fonte
Para sua informação, se você deve se referir a alguém como um scholarou a researcherpode ser estabelecido olhando seus currículos. Se eles listam os livros primeiro (e não têm artigos em periódicos revisados ​​por pares ... como é o caso das ciências humanas), eles definitivamente estão scholars. Se eles listarem documentos e / ou doações primeiro, serão researchers.
StasK 14/02
@StasK, por que você diz que os periódicos de humanidades não são revisados ​​por pares? Eu pensei que eles são. Exemplos: Filologia Clássica , Europa Medieval Antiga - essas foram as primeiras que encontrei pesquisando palavras-chave aleatórias no Google Scholar Metrics. Eu verifiquei várias outras, e todas elas parecem revisadas por pares.
Ameba
Eu só disse que as pessoas escrevem livros em vez de papéis para revistas especializadas. Não tenho dúvidas de que existem revistas especializadas em humanidades.
StasK
1

Só posso aplaudir seu esforço em verificar com o pessoal do campo. Gostaria apenas de fazer um pequeno comentário sobre a utilidade da correlação entre a interceptação e a inclinação. Skrondal e Rabe-Hesketh (2004) fornecem um exemplo simples e tolo de como alguém pode manipular essa correlação pela mudança / centralização da variável que entra no modelo com uma inclinação aleatória. Veja a pág. 54 - procure "Figura 3.1" na visualização da Amazon. Vale pelo menos uma dúzia de palavras.

StasK
fonte