Quando usar equações de estimativa generalizada versus modelos de efeitos mistos?

63

Eu tenho usado muito feliz modelos de efeitos mistos há algum tempo com dados longitudinais. Eu gostaria de poder encaixar os relacionamentos AR no passado (acho que estou certo que não posso fazer isso?), Mas não acho que seja desesperadamente importante, então não me preocupo muito.

Acabei de encontrar equações de estimativa generalizada (GEE), e elas parecem oferecer muito mais flexibilidade do que os modelos ME.

Correndo o risco de fazer uma pergunta geral, existe algum conselho sobre qual é o melhor para diferentes tarefas? Eu vi alguns trabalhos comparando-os, e eles tendem a ter a seguinte forma:

"Nesta área altamente especializada, não use GEEs para X, não use modelos ME para Y".

Não encontrei mais nenhum conselho geral. Alguém pode me esclarecer?

Obrigado!

Chris Beeley
fonte
11
"eles parecem oferecer muito mais flexibilidade" ... Bem, eles também diferem em sua abordagem, pois os GEEs são usados ​​para ajustar uma distribuição marginal, ao contrário da abordagem condicional frequentemente interessante quando se usa o GLMM.
chl
Note que glmmPQLtambém pode caber estruturas de correlação AR
Tom Wenseleers
O que é um relacionamento AR?
Estatísticas de aprendizado por exemplo
estrutura de covariância @incodeveritas Autoregressive
Tommyixi

Respostas:

56

Use GEE quando estiver interessado em descobrir o efeito médio da população de uma covariável versus o efeito específico individual. Essas duas coisas são equivalentes apenas em modelos lineares, mas não em não lineares (por exemplo, logística). Para ver isso, considere, por exemplo, o modelo logístico de efeitos aleatórios da ésima observação do ésimo sujeito, ;jiYij

log(pij1pij)=μ+ηi

onde é um efeito aleatório para sujeitos e .ηiN(0,σ2)ipij=P(Yij=1|ηi)

Se você usasse um modelo de efeitos aleatórios nesses dados, obteria uma estimativa de que explica o fato de que uma perturbação média zero normalmente distribuída foi aplicada a cada indivíduo, tornando-o específico.μ

Se você usasse o GEE nesses dados, estimaria as probabilidades médias de log da população. Nesse caso, isso seria

ν=log(Eη(11+eμηi)1Eη(11+eμηi))

νμ , em geral. Por exemplo, se e , então . Embora os efeitos aleatórios tenham média zero na escala transformada (ou vinculada ), seu efeito não é média zero na escala original dos dados. Tente simular alguns dados de um modelo de regressão logística de efeitos mistos e comparar a média do nível da população com o logit inverso da interceptação e você verá que eles não são iguais, como neste exemplo. Essa diferença na interpretação dos coeficientes é a diferença fundamental entre os modelos de efeitos aleatórios e GEE .μ=1σ2=1ν.83

Edit: Em geral, um modelo de efeitos mistos sem preditores pode ser escrito como

ψ(E(Yij|ηi))=μ+ηi

onde é uma função de link. Sempre queψ

ψ(Eη(ψ1(E(Yij|ηi))))Eη(E(Yij|ηi))

haverá uma diferença entre os coeficientes médios da população (GEE) e os coeficientes específicos individuais (modelos de efeitos aleatórios). Ou seja, as médias mudam transformando os dados, integrando os efeitos aleatórios na escala transformada e depois transformando de volta. Observe que no modelo linear (ou seja, ), a igualdade se mantém, portanto são equivalentes.ψ(x)=x

Edit 2: Também é importante notar que os erros padrão "robustos" do tipo sanduíche produzidos por um modelo GEE fornecem intervalos de confiança assintóticos válidos (por exemplo, eles realmente cobrem 95% do tempo), mesmo que a estrutura de correlação especificada no modelo não seja corrigir.

Edit 3: Se seu interesse é entender a estrutura de associação nos dados, as estimativas de associações de GEE são notoriamente ineficientes (e às vezes inconsistentes). Vi uma referência para isso, mas não posso colocá-la agora.

Macro
fonte
3
(+1) Sobre sua segunda edição, eu acrescentaria que os estimadores de variação baseados em modelo funcionarão melhor com um pequeno número de clusters (ou podemos usar um estimador de Jacknife). Como referência, eu sempre aponto para gbi.agrsci.dk/statistics/courses/phd07/material/Day10 , que contém notas de palestras muito agradáveis ​​(dados estatísticos, incluindo uma comparação das abordagens GEE vs. GLMM + ilustrações em R) .
chl
Uau, que ótima resposta. Muito obrigado. Isso é totalmente o que eu estava procurando. E obrigado a chl também pelo link. + 10 internets para vocês dois.
quer
Os GEEs também não assumem que os efeitos de nível superior são parâmetros incômodos? Parece-me que é outra distinção importante - se alguém estiver interessado nesses efeitos, o GEE não a concederá. Como alternativa, se você não se sentir à vontade para fazer essas suposições distributivas, talvez seja preferível o GEE.
Robin.datadrivers
O link que @chl fornecido está morto: / (seis anos mais tarde é uma espécie de espera, né?)
Guilherme Marthe
@GuilhermeMarthe Good catch! Infelizmente, vinculei ao mesmo material em outro tópico . Vejo duas opções: faça referência ao pacote geepack R (desenvolvido pelos mesmos dois autores) ou use o WayBack Machine por enquanto.
chl
10

Na minha opinião, o GEE é mais útil quando não estamos usando a modelagem bayesiana e quando uma solução de probabilidade total não está disponível. Além disso, o GEE pode exigir tamanhos de amostra maiores para ser suficientemente preciso e é muito pouco robusto para a falta de dados longitudinais não aleatórios. O GEE assume a falta completamente aleatória, enquanto os métodos de probabilidade (modelos de efeitos mistos ou mínimos quadrados generalizados, por exemplo) assumem apenas a falta aleatória.

Frank Harrell
fonte
1

Você pode encontrar uma discussão completa e exemplos concretos em Fitzmaurice, Laird and Ware, Análise longitudinal aplicada , John Wiley & Sons, 2011, 2ª edição, capítulos 11-16.

Quanto aos exemplos, você pode encontrar conjuntos de dados e programas SAS / Stata / R no site complementar .

Sergio
fonte
2
Você poderia resumir os pontos principais deste livro?
chl
2
Eu diria que a Macro já fez isso ;-) No livro, você pode encontrar discussões mais longas e detalhadas, alguns exemplos analíticos, numéricos e gráficos e alguns outros pontos, entre eles o que Frank Harrell adicionou. Você também pode consultar o blog de Gelman .
Sergio