Estou executando um GEE em dados desequilibrados em três níveis, usando um link de logit. Como isso difere (em termos das conclusões que posso tirar e do significado dos coeficientes) de um GLM com efeitos mistos (GLMM) e link logit?
Mais detalhes: As observações são ensaios únicos de bernoulli. Eles são agrupados em salas de aula e escolas. Usando R. Casewise omissão de NAs. 6 preditores também termos de interação.
(Não estou revirando as crianças para ver se elas pousam na cabeça.)
Estou inclinado a exponenciar os coeficientes em razão de chances. Isso tem o mesmo significado em ambos?
Há algo oculto no fundo da minha mente sobre "meios marginais" nos modelos de GEE. Eu preciso desse pouco explicado para mim.
Obrigado.
Respostas:
Em termos de interpretação dos coeficientes, há uma diferença no caso binário (entre outros). O que difere entre GEE e GLMM é o objetivo da inferência: média populacional ou assunto específico .
Vamos considerar um exemplo simples de maquiagem relacionado ao seu. Você deseja modelar a taxa de reprovação entre meninos e meninas em uma escola. Como na maioria das escolas (primárias), a população de estudantes é dividida em salas de aula. É possível observar uma resposta binário a partir de n i crianças em N salas de aula (por exemplo Σ N i = 1 n i respostas binários agrupados por classe), onde Y i j = 1 se estudante j a partir da sala de aula i passou e Y i j = 0 se ele /ela falhou. E xY ni N ∑Ni=1ni Yij=1 j i Yij=0 se o alunojda sala de aulaifor do sexo masculino e 0 em caso contrário.xij=1 j i
Para trazer a terminologia que usei no primeiro parágrafo, você pode pensar na escola como sendo a população e as salas de aula como os sujeitos .
Primeiro, considere o GLMM. O GLMM está adaptando um modelo de efeitos mistos. As condições do modelo na matriz de design fixa (que neste caso é composta pela interceptação e indicador de gênero) e quaisquer efeitos aleatórios entre as salas de aula que incluímos no modelo. Em nosso exemplo, vamos incluir uma interceptação aleatória, , que levará em consideração as diferenças de linha de base na taxa de falhas entre as salas de aula. Então estamos modelandobi
O odds ratio de risco de falha no modelo acima difere com base no valor de que é diferente entre as salas de aula. Assim, as estimativas são específicas do assunto .bi
O GEE, por outro lado, está se ajustando a um modelo marginal. Estes modelam médias populacionais . Você está modelando a expectativa condicional apenas em sua matriz de design fixa.
Isso contrasta com os modelos de efeitos mistos, conforme explicado acima, que condicionam a matriz de design fixa e os efeitos aleatórios. Portanto, com o modelo marginal acima, você está dizendo: "esqueça a diferença entre as salas de aula, eu só quero a taxa de reprovação da população (escolar) e sua associação com o gênero". Você se ajusta ao modelo e obtém uma razão de chances que é a razão de chances média da população de falha associada ao sexo.
Portanto, você pode achar que suas estimativas do modelo GEE podem diferir das estimativas do modelo GLMM e isso ocorre porque elas não estão estimando a mesma coisa.
(No que diz respeito à conversão de razão de chances de log para razão de chances exponenciando, sim, você faz isso, seja uma estimativa em nível de população ou específica de um assunto)
Algumas notas / literatura:
Para o caso linear, a média da população e as estimativas específicas do sujeito são as mesmas.
Zeger et ai. 1988 mostrou que, para regressão logística,
Molenberghs, Verbeke 2005 tem um capítulo inteiro sobre modelos de efeitos marginais versus efeitos aleatórios.
Eu aprendi sobre isso e material relacionado em um curso muito baseado em Diggle, Heagerty, Liang, Zeger 2002 , uma ótima referência.
fonte