Qual é a diferença entre um modelo GLM (regressão logística) com uma variável de resposta binária que inclui sujeito e tempo como covariáveis e o modelo GEE análogo que leva em consideração a correlação entre medições em vários momentos?
Meu GLM se parece com:
Y(binary) ~ A + B1X1(subject id) + B2X2(time)
+ B3X3(interesting continuous covariate)
com função de link logit.
Estou procurando uma explicação simples (voltada para o cientista social) sobre como e por que o tempo é tratado de maneira diferente nos dois modelos e quais seriam as implicações para a interpretação.
Respostas:
Pode haver uma resposta melhor e mais detalhada por aí, mas posso lhe dar alguns pensamentos simples e rápidos. Parece que você está falando sobre o uso de um Modelo Linear Generalizado (por exemplo, uma regressão logística típica) para ajustar os dados coletados de alguns assuntos em vários momentos. À primeira vista, vejo dois problemas flagrantes com essa abordagem.
Primeiro, esse modelo pressupõe que seus dados são independentes, dadas as covariáveis (ou seja, depois de contabilizar um código fictício para cada sujeito, semelhante a um termo de interceptação individual e uma tendência de tempo linear que é igual para todos). É improvável que isso seja verdade. Em vez disso, quase certamente haverá autocorrelações, por exemplo, duas observações do mesmo indivíduo mais próximo no tempo serão mais semelhantes do que duas observações mais distantes no tempo, mesmo depois de ter contabilizado o tempo . (Embora eles possam ser independentes se você também incluiu uma
subject ID x time
interação - ou seja, uma tendência de tempo única para todos -, mas isso exacerbaria o próximo problema).Segundo, você queimará um número enorme de graus de liberdade estimando um parâmetro para cada participante. É provável que você tenha relativamente poucos graus de liberdade para tentar estimar com precisão seus parâmetros de interesse (é claro, isso depende de quantas medidas você tiver por pessoa).
Ironicamente, o primeiro problema significa que seus intervalos de confiança são muito estreitos, enquanto o segundo significa que seus ICs serão muito mais amplos do que teriam sido se você não tivesse desperdiçado a maior parte de seus graus de liberdade. No entanto, eu não contaria com esses dois se equilibrando. Pelo que vale, acredito que suas estimativas de parâmetros seriam imparciais (embora eu possa estar errado aqui).
O uso das equações de estimativa generalizada é apropriado neste caso. Quando você ajustar um modelo usando GEE, você especifica uma estrutura de correlação (como AR (1)), e ele pode ser bastante razoável de que os seus dados são independentes condicional em ambos os seus co-variáveis e a matriz de correlação especificado. Além disso, o GEE estima a associação média da população, para que você não precise queimar um grau de liberdade para cada participante - em essência, você está avaliando a média deles.
Quanto à interpretação, tanto quanto sei, seria a mesma nos dois casos: dado que os outros fatores permanecem constantes, uma alteração de uma unidade em X3 está associada a uma alteração B3 nas chances de log de 'sucesso' .
fonte