Calculando

13

Eu tenho lido sobre o cálculo de valores de R2 em modelos mistos e depois de ler as perguntas frequentes do R-sig, outras postagens neste fórum (eu vincularia algumas, mas não tenho reputação suficiente) e várias outras referências que eu entendo que usando valores no contexto de modelos mistos é complicado.R2

No entanto, recentemente me deparei com esses dois documentos abaixo. Embora esses métodos pareçam promissores (para mim), eu não sou um estatístico e, como tal, fiquei imaginando se alguém teria alguma idéia sobre os métodos que eles propõem e como eles se comparariam a outros métodos que foram propostos.

Nakagawa, Shinichi e Holger Schielzeth. "Um método geral e simples para obter R2 a partir de modelos lineares generalizados de efeitos mistos". Métodos em Ecologia e Evolução 4.2 (2013): 133-142.

Johnson, Paul CD. "Extensão do R2GLMM de Nakagawa & Schielzeth para modelos de declives aleatórios." Métodos em Ecologia e Evolução (2014).

O método is também pode ser implementado usando a função r.squaredGLMM no pacote MuMIn, que fornece a seguinte descrição do método.

Para modelos de efeitos mistos, pode ser categorizado em dois tipos. A marginal representa a variação explicada por fatores fixos e é definida como: condicional é interpretado como variância explicada por fatores fixos e aleatórios (ou seja, o modelo inteiro) e é calculado de acordo com a equação: onde é a variação dos componentes do efeito fixo e é a soma de todos os componentes de variação (grupo, indivíduo, etc.),R 2 R G L M M ( m ) 2 = σ 2 fR2R2 R2RGLMM(c)2=(σ 2 f +(σ 2 l ))

RGLMM(m)2=σf2σf2+(σl2)+σe2+σd2
R2
RGLMM(c)2=(σf2+(σl2))(σf2+(σl2)+σe2+σd2
σf2(σl2)σl2é a variação devido à dispersão aditiva e é a variação específica da distribuição. σd2

Na minha análise, estou analisando dados longitudinais e estou interessado principalmente na variação explicada pelos efeitos fixos no modelo

library(MuMIn) 
library(lme4)

fm1 <- lmer(zglobcog ~ age_c + gender_R2 + ibphdtdep + iyeareducc + apoegeno + age_c*apoegeno + (age_c | pathid), data = dat, REML = FALSE, control = lmerControl(optimizer = "Nelder_Mead"))

# Jarret Byrnes (correlation between the fitted and the observed values)
r2.corr.mer <- function(m) {
   lmfit <-  lm(model.response(model.frame(m)) ~ fitted(m))
   summary(lmfit)$r.squared
}

r2.corr.mer(fm1)
[1] 0.8857005

# Xu 2003
1-var(residuals(fm1))/(var(model.response(model.frame(fm1))))
[1] 0.8783479

# Nakagawa & Schielzeth's (2013)
r.squaredGLMM(fm1)
      R2m       R2c 
0.1778225 0.8099395 
Andrews
fonte
Editei sua postagem para usar a formatação mathjax. Verifique se não introduzi acidentalmente nenhum erro.
Sycorax diz Reinstate Monica
Sua pergunta está sem uma pergunta real, pelo que entendi. Você pode esclarecer o que quer? Uma recomendação sobre o que usar?
Henrik
Oi @ Henrik, eu estava interessado em uma recomendação do que usar, sim, mas também de forma mais ampla como os diferentes métodos se comparam e quais são as diferenças.
Andrews
Eu acredito que as equações originais e acima estão erradas. Isso não se deve às alterações do @ user777. Os dois termos à direita devem estar no denominador. Veja isso .
Cyrille
Provavelmente, esse erro foi causado devido à falta de documentação dos pacotes MuMIn nos colchetes de fechamento .
Cyrille

Respostas:

11

R2lme4nlme

Devo admitir que fico um pouco nervoso quando as pessoas falam do "R2 para GLMMs". R2 para um modelo linear é bem definido e possui muitas propriedades desejáveis. Para outros modelos, pode-se definir diferentes quantidades que refletem algumas, mas não todas essas propriedades. Mas isso não é calcular um R2 no sentido de obter um número com todas as propriedades que o R2 para modelos lineares possui. Geralmente, existem várias maneiras diferentes de definir essa quantidade. Especialmente para GLMs e GLMMs antes que você possa definir "proporção da variação da resposta explicada", primeiro você precisa definir o que você quer dizer com "variação da resposta".

A confusão sobre o que constitui R2 ou graus de liberdade de qualquer uma das outras quantidades associadas aos modelos lineares aplicados a outros modelos vem da confusão da fórmula com o conceito. Embora as fórmulas sejam derivadas de modelos, a derivação geralmente envolve matemática bastante sofisticada. Para evitar uma derivação potencialmente confusa e apenas "ir direto ao ponto", é mais fácil apresentar as fórmulas. Mas a fórmula não é o conceito. Generalizar uma fórmula não é equivalente a generalizar o conceito. E essas fórmulas quase nunca são usadas na prática, especialmente para modelos lineares generalizados, análise de variância e efeitos aleatórios. Eu tenho um "meta-teorema" de que a única quantidade realmente calculada de acordo com as fórmulas fornecidas nos textos introdutórios é a média da amostra.

Pode parecer que eu estou sendo um velho rabugento sobre isso, e talvez eu esteja, mas o perigo é que as pessoas esperem que uma quantidade "semelhante ao R2" tenha todas as propriedades de um R2 para modelos lineares. Não pode. Não há como generalizar todas as propriedades para um modelo muito mais complicado, como um GLMM.

Eu estava no comitê revisando uma proposta de tese para doutorado. candidatura. A proposta era examinar 9 fórmulas diferentes que poderiam ser consideradas formas de calcular um R2 para um modelo de regressão não linear para decidir qual era o "melhor". Obviamente, isso seria feito através de um estudo de simulação com apenas alguns modelos diferentes e apenas alguns conjuntos diferentes de valores de parâmetros para cada um. Minha sugestão de que este era um exercício totalmente sem sentido não foi recebida calorosamente.

Robert Long
fonte
10

R2R2

  • Lahuis, D et al (2014) Medidas de variância explicadas para modelos multiníveis. Métodos de Pesquisa Organizacional.

insira a descrição da imagem aqui

R2R2R2R2R2R2(OLS) apresentou os menores desvios padrão no modelo de inclinação aleatória. Em geral, Formula não era um estimador eficiente.

Andrews
fonte