Eu tenho um conjunto de dados que consiste em uma série de contagens de casos mensais "quebradas" de vários sites. Estou tentando obter uma única estimativa resumida de duas técnicas diferentes:
Técnica 1: Ajuste um "bastão quebrado" com um Poisson GLM com uma variável indicadora 0/1 e use uma variável tempo e tempo ^ 2 para controlar tendências no tempo. A estimativa da variável indicador 0/1 e o SE são agrupados usando um método bastante direto para cima e para baixo dos momentos, ou usando o pacote tlnise em R para obter uma estimativa "bayesiana". Isso é semelhante ao que Peng e Dominici fazem com os dados de poluição do ar, mas com menos locais (cerca de uma dúzia).
Técnica 2: abandone parte do controle específico do site para tendências no tempo e use um modelo misto linear. Particularmente:
lmer(cases ~ indicator + (1+month+I(month^2) + offset(log(p)), family="poisson", data=data)
Minha pergunta envolve os erros padrão que resultam dessas estimativas. O erro padrão da técnica 1, que na verdade está usando um horário semanal em vez de mensal e, portanto, deve ter mais precisão, possui um erro padrão na estimativa de ~ 0,206 para a abordagem Método dos Momentos e ~ 0,306 para o tempo.
O método lmer fornece um erro padrão de ~ 0,09. As estimativas de efeito são razoavelmente próximas, portanto, não parece que elas estejam se concentrando em estimativas sumárias diferentes, tanto quanto o modelo misto é muito mais eficiente.
Isso é algo razoável de se esperar? Se sim, por que os modelos mistos são muito mais eficientes? Esse é um fenômeno geral ou um resultado específico desse modelo?
fonte
Respostas:
Sei que essa é uma pergunta antiga, mas é relativamente popular e tem uma resposta simples, por isso espero que seja útil para outras pessoas no futuro. Para uma análise mais aprofundada, dê uma olhada no curso de Christoph Lippert sobre Modelos Mistos Lineares, que os examina no contexto dos estudos de associação em todo o genoma aqui . Em particular, veja a Aula 5 .
A razão pela qual o modelo misto funciona muito melhor é que ele foi projetado para levar em conta exatamente o que você está tentando controlar: estrutura da população. As "populações" em seu estudo são os diferentes locais, usando, por exemplo, implementações ligeiramente diferentes, mas consistentes, do mesmo protocolo. Além disso, se os sujeitos do seu estudo forem pessoas, as pessoas reunidas em sites diferentes têm menor probabilidade de se relacionar do que as pessoas do mesmo site, portanto, a relação com o sangue também pode desempenhar um papel.
Como você está tentando controlar explicitamente a estrutura da população, não é surpresa que o modelo misto linear tenha superado outras técnicas de regressão.
fonte