Recentemente, comecei a aprender sobre modelos mistos lineares generalizados e estava usando o R para explorar que diferença faz para tratar a associação ao grupo como efeito fixo ou aleatório. Em particular, estou analisando o exemplo de conjunto de dados discutido aqui:
http://www.ats.ucla.edu/stat/mult_pkg/glmm.htm
http://www.ats.ucla.edu/stat/r/dae/melogit.htm
Conforme descrito neste tutorial, o efeito do Doctor ID é apreciável e eu esperava que o modelo misto com uma interceptação aleatória desse resultados melhores. No entanto, a comparação dos valores da AIC para os dois métodos sugere que esse modelo é pior:
> require(lme4) ; hdp = read.csv("http://www.ats.ucla.edu/stat/data/hdp.csv")
> hdp$DID = factor(hdp$DID) ; hdp$Married = factor(hdp$Married)
> GLM = glm(remission~Age+Married+IL6+DID,data=hdp,family=binomial);summary(GLM)
Call:
glm(formula = remission ~ Age + Married + IL6 + DID, family = binomial,
data = hdp)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.5265 -0.6278 -0.2272 0.5492 2.7329
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.560e+01 1.219e+03 -0.013 0.990
Age -5.869e-02 5.272e-03 -11.133 < 2e-16 ***
Married1 2.688e-01 6.646e-02 4.044 5.26e-05 ***
IL6 -5.550e-02 1.153e-02 -4.815 1.47e-06 ***
DID2 1.805e+01 1.219e+03 0.015 0.988
DID3 1.932e+01 1.219e+03 0.016 0.987
[...]
DID405 1.566e+01 1.219e+03 0.013 0.990
DID405 1.566e+01 1.219e+03 0.013 0.990
DID406 -2.885e-01 3.929e+03 0.000 1.000
DID407 2.012e+01 1.219e+03 0.017 0.987
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 10353 on 8524 degrees of freedom
Residual deviance: 6436 on 8115 degrees of freedom
AIC: 7256
Number of Fisher Scoring iterations: 17
> GLMM = glmer(remission~Age+Married+IL6+(1|DID),data=hdp,family=binomial) ; m
Generalized linear mixed model fit by the Laplace approximation
Formula: remission ~ Age + Married + IL6 + (1 | DID)
Data: hdp
AIC BIC logLik deviance
7743 7778 -3867 7733
Random effects:
Groups Name Variance Std.Dev.
DID (Intercept) 3.8401 1.9596
Number of obs: 8525, groups: DID, 407
Fixed effects:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.461438 0.272709 5.359 8.37e-08 ***
Age -0.055969 0.005038 -11.109 < 2e-16 ***
Married1 0.260065 0.063736 4.080 4.50e-05 ***
IL6 -0.053288 0.011058 -4.819 1.44e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Correlation of Fixed Effects:
(Intr) Age Marrd1
Age -0.898
Married1 0.070 -0.224
IL6 -0.162 0.012 -0.033
> extractAIC(GLM) ; extractAIC(GLMM)
[1] 410.000 7255.962
[1] 5.000 7743.188
Assim, minhas perguntas são:
(1) É apropriado comparar os valores de AIC fornecidos pelas duas funções? Se sim, por que o modelo de efeito fixo se sai melhor?
(2) Qual é a melhor maneira de identificar se os efeitos fixos ou aleatórios são mais importantes (isto é, quantificar que a variabilidade devida ao médico é mais importante que as características do paciente?
fonte
DID
como tanto um efeito fixo, e uma interceptação aleatória no 2º modelo. Além disso, tê-lo como efeito fixo no 1º modelo significa que a escolha entre esses 2 seria sobre a maneira de pensar sobre o efeitoDID
, e não se ele precisa ser incluído. Em uma nota diferente, notei que você possui um item (2); você queria ter um item (1) em algum lugar?Os modelos são muito diferentes. O modelo glm trata da redução geral do desvio (de um modelo nulo) quando todos os efeitos do doctorID estão sendo estimados e estão sendo designados parâmetros estimados. Você percebe, é claro, que Age, Married e IL6 têm todas as mesmas estatísticas de Wald nos dois modelos, certo? Meu entendimento (que não é altamente refinado, admito) é que o modelo misto está tratando os IDs médicos como fatores ou estratos incômodos, ou seja, "efeitos" que não se pode presumir serem extraídos de qualquer distribuição parental em particular. Não vejo razão para pensar que o uso de um modelo misto melhoraria sua compreensão do "efeito médico", muito pelo contrário.
Se seu interesse fosse pelos efeitos de Idade, Casado ou IL6, eu imaginaria que você não compararia o AIC nesses dois modelos, mas sim nas diferenças no AIC com a remoção de covariáveis interesses na mesma estrutura de modelagem.
fonte