Eu estou querendo saber quais são as diferenças entre GLMs mistos e não misturados. Por exemplo, no SPSS, o menu suspenso permite que os usuários se ajustem:
analyze-> generalized linear models-> generalized linear models
&analyze-> mixed models-> generalized linear
Eles lidam com valores ausentes de maneira diferente?
Minha variável dependente é binária e tenho várias variáveis independentes categóricas e contínuas.
mixed-model
generalized-linear-model
glmm
gee
user9203
fonte
fonte
Respostas:
O advento de modelos lineares generalizados nos permitiu criar modelos de dados do tipo regressão quando a distribuição da variável de resposta não é normal - por exemplo, quando o seu DV é binário. (Se você gostaria de saber um pouco mais sobre GLiMs, escrevi uma resposta bastante extensa aqui , que pode ser útil, embora o contexto seja diferente.) No entanto, um GLiM, por exemplo, um modelo de regressão logística, assume que seus dados são independentes . Por exemplo, imagine um estudo que analise se uma criança desenvolveu asma. Cada criança contribui com umOs dados apontam para o estudo - eles têm asma ou não. Às vezes, os dados não são independentes. Considere outro estudo que analisa se uma criança está resfriada em vários momentos do ano letivo. Nesse caso, cada criança contribui com muitos pontos de dados. Ao mesmo tempo, uma criança pode ter um resfriado, mais tarde não, e ainda mais tarde pode ter outro resfriado. Esses dados não são independentes porque vieram do mesmo filho. Para analisar adequadamente esses dados, precisamos levar em consideração essa não independência. Há duas maneiras: Uma maneira é usar as equações de estimativa generalizada (que você não mencionou, então vamos pular). A outra maneira é usar um modelo misto linear generalizado. Os GLiMMs podem explicar a não independência adicionando efeitos aleatórios (como observa @MichaelChernick). Portanto, a resposta é que sua segunda opção é para dados repetidos fora do normal (ou não independentes). (Devo mencionar, de acordo com o comentário de @ Macro, que modelos mistos lineares generalizados incluem modelos lineares como um caso especial e, portanto, podem ser usados com dados normalmente distribuídos. No entanto, no uso típico, o termo conota dados não normais.)
Atualização: (O OP também perguntou sobre o GEE, então escreverei um pouco sobre como os três se relacionam.)
Aqui está uma visão geral básica:
Como você tem várias tentativas por participante, seus dados não são independentes; como você observou corretamente, "[os] materiais dentro de um participante provavelmente serão mais semelhantes do que em comparação com todo o grupo". Portanto, você deve usar um GLMM ou o GEE.
A questão, então, é como escolher se o GLMM ou o GEE seria mais apropriado para sua situação. A resposta a esta pergunta depende do assunto da sua pesquisa - especificamente, o objetivo das inferências que você espera fazer. Como afirmei acima, com um GLMM, os betas estão falando sobre o efeito de uma alteração de uma unidade em suas covariáveis em um determinado participante, dadas as características individuais deles. Por outro lado, com o GEE, os betas estão falando sobre o efeito de uma alteração de uma unidade em suas covariáveis na média das respostas de toda a população em questão. Essa é uma distinção difícil de entender, especialmente porque não existe essa distinção com modelos lineares (nesse caso, os dois são a mesma coisa).
Uma maneira de tentar entender isso é imaginar uma média da população em ambos os lados do sinal de igual em seu modelo. Por exemplo, este pode ser um modelo: que: Há um parâmetro que governa a distribuição da resposta ( , a probabilidade, com dados binários) no lado esquerdo de cada participante. No lado direito, existem coeficientes para o efeito da covariável e do nível de linha de base quando a covariável é igual a 0. A primeira coisa a notar é que a interceptação real para qualquer indivíduo específico não é , mas sim
Imagine que esse gráfico represente o processo de geração de dados subjacente para a probabilidade de uma classe pequena dos alunos será capaz de passar em um teste em algum assunto com um determinado número de horas de instrução sobre esse tópico. Cada uma das curvas cinza representa a probabilidade de passar no teste com quantidades variáveis de instrução para um dos alunos. A curva em negrito é a média de toda a classe. Nesse caso, o efeito de uma hora adicional de ensino condicional nos atributos do aluno é
A questão de se você deve usar um GLMM ou o GEE é a questão de qual dessas funções você deseja estimar. Se você quiser saber sobre a probabilidade de aprovação de um determinado aluno (se, por exemplo, você era o aluno ou os pais dele), você deseja usar um GLMM. Por outro lado, se você deseja saber sobre o efeito na população (se, por exemplo, você era o professor ou o diretor), você gostaria de usar o GEE.
Para outra discussão mais detalhada matematicamente deste material, consulte esta resposta do @Macro.
fonte
A chave é a introdução de efeitos aleatórios. O link de Gung menciona isso. Mas acho que deveria ter sido mencionado diretamente. Essa é a principal diferença.
fonte
Sugiro que você também examine as respostas de uma pergunta que fiz há algum tempo:
Modelo linear geral vs. modelo linear generalizado (com uma função de vínculo de identidade?)
fonte