Fixed vs Random Effects

10

Recentemente, comecei a aprender sobre modelos mistos lineares generalizados e estava usando o R para explorar que diferença faz para tratar a associação ao grupo como efeito fixo ou aleatório. Em particular, estou analisando o exemplo de conjunto de dados discutido aqui:

http://www.ats.ucla.edu/stat/mult_pkg/glmm.htm

http://www.ats.ucla.edu/stat/r/dae/melogit.htm

Conforme descrito neste tutorial, o efeito do Doctor ID é apreciável e eu esperava que o modelo misto com uma interceptação aleatória desse resultados melhores. No entanto, a comparação dos valores da AIC para os dois métodos sugere que esse modelo é pior:

> require(lme4) ; hdp = read.csv("http://www.ats.ucla.edu/stat/data/hdp.csv")
> hdp$DID = factor(hdp$DID) ; hdp$Married = factor(hdp$Married)
> GLM = glm(remission~Age+Married+IL6+DID,data=hdp,family=binomial);summary(GLM)

Call:
glm(formula = remission ~ Age + Married + IL6 + DID, family = binomial, 
data = hdp)

Deviance Residuals: 
Min       1Q   Median       3Q      Max  
-2.5265  -0.6278  -0.2272   0.5492   2.7329  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept) -1.560e+01  1.219e+03  -0.013    0.990    
Age         -5.869e-02  5.272e-03 -11.133  < 2e-16 ***
Married1     2.688e-01  6.646e-02   4.044 5.26e-05 ***
IL6         -5.550e-02  1.153e-02  -4.815 1.47e-06 ***
DID2         1.805e+01  1.219e+03   0.015    0.988    
DID3         1.932e+01  1.219e+03   0.016    0.987   

[...]

DID405       1.566e+01  1.219e+03   0.013    0.990    
DID405       1.566e+01  1.219e+03   0.013    0.990    
DID406      -2.885e-01  3.929e+03   0.000    1.000    
DID407       2.012e+01  1.219e+03   0.017    0.987    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 10353  on 8524  degrees of freedom
Residual deviance:  6436  on 8115  degrees of freedom
AIC: 7256

Number of Fisher Scoring iterations: 17


> GLMM = glmer(remission~Age+Married+IL6+(1|DID),data=hdp,family=binomial) ; m

Generalized linear mixed model fit by the Laplace approximation 
Formula: remission ~ Age + Married + IL6 + (1 | DID) 
Data: hdp 
AIC  BIC logLik deviance
7743 7778  -3867     7733
Random effects:
Groups Name        Variance Std.Dev.
DID    (Intercept) 3.8401   1.9596  
Number of obs: 8525, groups: DID, 407

Fixed effects:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  1.461438   0.272709   5.359 8.37e-08 ***
Age         -0.055969   0.005038 -11.109  < 2e-16 ***
Married1     0.260065   0.063736   4.080 4.50e-05 ***
IL6         -0.053288   0.011058  -4.819 1.44e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Correlation of Fixed Effects:
         (Intr) Age    Marrd1
Age      -0.898              
Married1  0.070 -0.224       
IL6      -0.162  0.012 -0.033


> extractAIC(GLM) ; extractAIC(GLMM)

[1]  410.000 7255.962
[1]    5.000 7743.188

Assim, minhas perguntas são:

(1) É apropriado comparar os valores de AIC fornecidos pelas duas funções? Se sim, por que o modelo de efeito fixo se sai melhor?

(2) Qual é a melhor maneira de identificar se os efeitos fixos ou aleatórios são mais importantes (isto é, quantificar que a variabilidade devida ao médico é mais importante que as características do paciente?

Convidado333
fonte

Respostas:

7

Modelos de efeitos fixos e modelos de efeitos aleatórios fazem perguntas diferentes aos dados. A especificação de um conjunto de variáveis ​​fictícias no nível do grupo controla essencialmente toda a heterogeneidade não observada no nível do grupo na resposta média, deixando suas estimativas para refletir apenas a variabilidade dentro das unidades. Os modelos de efeitos aleatórios começam com a suposição de que há uma meta-população de (qualquer efeito) e que sua amostra reflete muitos desvios dessa população. Portanto, em vez de ancorar seus resultados em interceptações heterogêneas, seus dados serão usados ​​para elucidar os parâmetros dessa distribuição (normalmente normal) a partir da qual seus dados foram supostamente coletados.

Costuma-se dizer que os modelos de efeitos fixos são bons para conduzir inferência nos dados que você possui, e que os modelos de efeitos aleatórios são bons para tentar realizar inferência em uma população maior da qual seus dados são uma amostra aleatória.

t

yEut=αEu+βTEut+ϵEut

Você pode dividir seu termo de erro naquele componente que varia com o tempo e outro que não:

yEut=αEu+βTEut+eEu+vocêEut

Agora subtraia a média agrupada dos dois lados:

yEut-y¯Eu=αEu-α¯Eu+β(TEut-T¯Eu)+eEu-e¯Eu+vocêEut-você¯Eut

t

teEu

Neste exemplo, time é a variável de agrupamento. No seu exemplo, é DID. (ou seja: generaliza)

generic_user
fonte
1

1) É apropriado fazer a comparação, mas não com esses dois modelos. Você gostaria de comparar:

GLM <- glm(remission~Age+Married+IL6, data=hdp, family=binomial)

com

GLMM <- glmer(remission~Age+Married+IL6+(1|DID), data=hdp, family=binomial)

e você pode fazer isso com uma anova:

anova(GLM, GLMM)

(Não tenho certeza se isso funcionará com os resultados glme glmer, pois eles podem ser objetos R diferentes. Você pode precisar usar duas funções que tenham objetos de retorno comparáveis, como lmee gls, ou faça a anova sozinho.)

χ0 02χ1 12

Para mim, o melhor livro para entender o processo de construção de modelos aninhados e testes de hipóteses foi West, Welsh e Galecki (2007) Linear Mixed Models: Um guia prático . Eles passam por tudo passo a passo.

2) Se você tiver várias observações por paciente, também adicionaria um efeito aleatório para o paciente. Então, para testar a importância relativa da paciência versus médico, você pode observar os efeitos preditivos do paciente versus os efeitos preditivos do médico. Os termos de efeitos aleatórios de cada um quantificarão a quantidade de variação entre os pacientes e os médicos, se essa for uma pergunta em que você esteja interessado.

(Alguém por favor me corrija se eu estiver errado!)

Christopher Poile
fonte
Eu não tenho certeza que ele faz sentido ter DIDcomo tanto um efeito fixo, e uma interceptação aleatória no 2º modelo. Além disso, tê-lo como efeito fixo no 1º modelo significa que a escolha entre esses 2 seria sobre a maneira de pensar sobre o efeito DID, e não se ele precisa ser incluído. Em uma nota diferente, notei que você possui um item (2); você queria ter um item (1) em algum lugar?
gung - Restabelece Monica
Você está absolutamente correto; Eu estava saindo da fórmula glm original do OP, que não deveria ter tido o DID como um efeito fixo em primeiro lugar. Agora, a escolha é entre tratar o DID como um efeito aleatório agregar algum valor ao modelo.
Christopher Poile
1

Os modelos são muito diferentes. O modelo glm trata da redução geral do desvio (de um modelo nulo) quando todos os efeitos do doctorID estão sendo estimados e estão sendo designados parâmetros estimados. Você percebe, é claro, que Age, Married e IL6 têm todas as mesmas estatísticas de Wald nos dois modelos, certo? Meu entendimento (que não é altamente refinado, admito) é que o modelo misto está tratando os IDs médicos como fatores ou estratos incômodos, ou seja, "efeitos" que não se pode presumir serem extraídos de qualquer distribuição parental em particular. Não vejo razão para pensar que o uso de um modelo misto melhoraria sua compreensão do "efeito médico", muito pelo contrário.

Se seu interesse fosse pelos efeitos de Idade, Casado ou IL6, eu imaginaria que você não compararia o AIC nesses dois modelos, mas sim nas diferenças no AIC com a remoção de covariáveis ​​interesses na mesma estrutura de modelagem.

DWin
fonte