Escrevendo a equação matemática para um modelo de efeitos mistos multinível

15

A questão CV

Estou tentando fornecer (a) representações matemáticas detalhadas e concisas de um modelo de efeitos mistos. Estou usando o lme4pacote em R. Qual é a representação matemática correta para o meu modelo?


Dados, Questão Científica e Código R

Meu conjunto de dados consiste em espécies em diferentes regiões. Estou testando se a prevalência de uma espécie muda no tempo que leva à extinção (extinções não são necessariamente permanentes; podem recolonizar), ou após uma colonização.

lmer(prevalence ~ time + time:type + (1 + time + type:time | reg) + (1 + time + type:time | reg:spp))

  • Prevalência é a proporção de estratos ocupados por uma espécie em uma região / ano
  • O tempo é uma variável contínua que indica o tempo para extinção ou colonização; é sempre positivo
  • Tipo é uma variável categórica com dois níveis. Esses dois níveis são "-" e "+". Quando o tipo é -, é uma colonização (nível padrão). Quando o tipo é +, é uma extinção.
  • Reg é uma variável categórica com nove níveis, indicando a região
  • Spp é uma variável categórica; o número de níveis varia entre as regiões e varia entre 48 e 144.

Em palavras: variável de resposta é prevalência (proporção de estratos ocupados). Os efeitos fixos incluíram 1) e interceptar, 2) tempo do evento e 3) a interação entre o tempo do evento e o tipo de evento (colonização ou extinção). Cada um desses três efeitos fixos variava aleatoriamente entre as regiões. Dentro de uma região, cada um dos efeitos variou aleatoriamente entre as espécies.

Estou tentando descobrir como escrever a equação matemática para o modelo. Eu acho que entendo o que está acontecendo no código R (embora eu tenha certeza que tenho algumas lacunas de conhecimento, e espero que escrever a expressão matemática formal melhore minha compreensão).

Eu pesquisei bastante na web e nesses fóruns. Encontrei toneladas de informações úteis, com certeza (e talvez eu vincule algumas delas em uma edição desta pergunta). No entanto, eu não consegui encontrar a "Rosetta Stone" do código R traduzida para matemática (estou mais à vontade com o código) que realmente me ajudaria a confirmar que tenho essas equações corretas. Na verdade, eu sei que já existem algumas lacunas, mas vamos chegar a isso.


Minha tentativa

A forma básica de um modelo de efeitos mistos, em notação matricial, é (pelo meu entendimento):

Y=Xβ+Zγ+ϵ

β

X=[1ΔtΔt+1ΔtnΔt+,n]
Z= [ 1 I ( r 1 ) Δ t I ( r 1 ) Δ t + I ( r 1 ) 1 I ( r 9 ) Δ t I ( r 9 ) Δ t + I ( r 9 )
β=[β0β1β2]
γ
Z=[1I(r1)ΔtI(r1)Δt+I(r1)1I(r9)ΔtI(r9)Δt+I(r9)1I(r1,n)ΔtnI(r1,n)Δt+,nI(r1,n)1I(r9,n)ΔtI(r9,n)Δt+,nI(r9,n)]
ε~N(0,Σ)
γ=[γ0,1γ1,1γ2,1γ0,9γ1,9γ2,9]
ϵN(0,Σ)
  • Δ t Δ t +X é a matriz de design para os efeitos fixos, é o tempo após a colonização ( ) e é o tempo após a extinção ( )ΔttimeΔt+time:type
  • Z é a matriz de design dos efeitos aleatórios (nível 1?), I () é a função indicadora que fornece 1 se a amostra pertence à região designada e 0 caso contrário, r é indexado para indicar uma das nove regiões.
  • γβ e contêm parâmetrosγ
  • Σϵ são erros; Não tenho muita certeza de como explicar , embora perceba que uma dessas matrizes de variância / covariância expressará covariâncias entre inclinações e interceptações, por exemplo,Σ

Supondo que as coisas até agora estejam corretas, isso significa que eu sou bom no nível superior. No entanto, explicar a variação específica da espécie nos parâmetros, que está aninhada em cada região, me surpreendeu ainda mais.

Mas fiz uma rachadura em algo que talvez faça sentido ...

Cada um dos parâmetros em é derivado de uma combinação linear de preditores e parâmetros específicos da espécie em uma região. Para cada região, existem 3 linhas de, correspondentes às 3 variáveis ​​preditoras. Cada pode ser expresso individualmente comoγγγ

  • γp,r=Up,rbp,r+ηp,r
    • onde é uma matriz de desenho específico para a região e preditor , é um 1 por S matriz de parâmetros para a região (riqueza na região = , por exemplo, 48 ou 144), e é uma matriz de termos de erroUp,rrpbp,rSηp,r

Especificamente, para uma determinada região, cada um dos seria:γp,r

γ0,r=U0,rb0,r+η0,r
γ0,r=[1I(s1)1I(sS)]+[b0,1b0,S]+η0,r
γ1,r=U1,rb1,r+η1,r
γ1,r=[ΔtI(s1)ΔtI(sS)]+[b1,1b1,S]+η1,r
γ2,r=U2,rb2,r+η2,r
γ2,r=[Δt+I(s1)Δt+I(sS)]+[b2,1b2,S]+η2,r

Isso seria repetido para cada região. Em seguida, , como . Embora, talvez em vez de , exista outra letra, como , que é comumente usada.ηN(0,Ση)ϵΣG


Edit: outras perguntas / respostas que foram úteis

rbatt
fonte
Duvido que este artigo tenha a "resposta" à sua pergunta, mas me serviu bem como uma cartilha para as equações do modelo HMM. Esqueça que ele está enraizado no SAS, é apenas uma excelente visão geral dessa classe de modelos. Judith Singer, Utilizando SAS Proc Mixed para Ajustar Modelos Multiníveis, Modelos Hierárquicos e Modelos Individuais de Crescimento, JEBS , Winter 1998, vol. 24, n. 4, pp. 323-355.
Mike Hunter
11
Você leu a seção 2.3 aqui ?
Robert Long
Eu os li, e recursos como esse me levaram até aqui. Pode ser que eu apenas continue tentando, mas não consegui encontrar nenhum exemplo que fosse complicado o suficiente para me dar confiança suficiente na minha abordagem atual.
rbatt
Tanto quanto eu entendo, "aninhamento" é apenas interação em modelos mais recentes. Essa noção é fortalecida pelo uso da mesma sintaxe. Então, eu acredito que reg: spp pode ser tratado por uma única variável categórica, e apenas mais um conjunto de blocos em Z.
deasmhumnha
Eu também assumiria que o Lmer evitará a colinearidade perfeita e incluirá apenas as interações não redundantes na variável adicional.
deasmhumnha

Respostas:

1

Se eu entendi o código corretamente, por que não simplesmente escrever algo como

yi=(α+νj[i](α)+ηk[i](α))+(β+νj[i](β)+ηk[i](β))Ti+(δ+νj[i](δ)+ηk[i](δ))(TiZi)+ϵi
[νj(α),νj(β),νj(δ)]Multi-Normal(0,Σν)[ηj(α),ηj(β),ηj(δ)]Multi-Normal(0,Ση)ϵiNormal(0,σϵ)
yi=αj[i],k[i]+βj[i],k[i]Ti+δj[i],k[i](TiZi)+ϵi
αj[i],k[i]=α+νj(α)+ηk(α)βj[i],k[i]=β+νj(β)+ηk(β)δj[i],k[i]=δ+νj(δ)+ηk(δ)

baruuum
fonte