Modelo misto versus agrupamento de erros padrão para estudos em vários locais - Por que um modelo misto é muito mais eficiente?

16

Eu tenho um conjunto de dados que consiste em uma série de contagens de casos mensais "quebradas" de vários sites. Estou tentando obter uma única estimativa resumida de duas técnicas diferentes:

Técnica 1: Ajuste um "bastão quebrado" com um Poisson GLM com uma variável indicadora 0/1 e use uma variável tempo e tempo ^ 2 para controlar tendências no tempo. A estimativa da variável indicador 0/1 e o SE são agrupados usando um método bastante direto para cima e para baixo dos momentos, ou usando o pacote tlnise em R para obter uma estimativa "bayesiana". Isso é semelhante ao que Peng e Dominici fazem com os dados de poluição do ar, mas com menos locais (cerca de uma dúzia).

Técnica 2: abandone parte do controle específico do site para tendências no tempo e use um modelo misto linear. Particularmente:

lmer(cases ~ indicator + (1+month+I(month^2) + offset(log(p)), family="poisson", data=data)

Minha pergunta envolve os erros padrão que resultam dessas estimativas. O erro padrão da técnica 1, que na verdade está usando um horário semanal em vez de mensal e, portanto, deve ter mais precisão, possui um erro padrão na estimativa de ~ 0,206 para a abordagem Método dos Momentos e ~ 0,306 para o tempo.

O método lmer fornece um erro padrão de ~ 0,09. As estimativas de efeito são razoavelmente próximas, portanto, não parece que elas estejam se concentrando em estimativas sumárias diferentes, tanto quanto o modelo misto é muito mais eficiente.

Isso é algo razoável de se esperar? Se sim, por que os modelos mistos são muito mais eficientes? Esse é um fenômeno geral ou um resultado específico desse modelo?

Fomite
fonte
É difícil responder a essa pergunta sem saber exatamente qual modelo você se encaixa na sua Técnica 1. Você menciona três possibilidades, mas até onde eu sei, nunca se acomode em uma. Depois, você diz "O erro padrão da técnica 1 é [...] ~ 0,206". Precisamente para qual modelo é esse o erro padrão? Você postará a sintaxe usada para ajustar este modelo, como você fez para a Técnica 2? Melhor ainda seria fornecer um exemplo reproduzível (não necessariamente o seu conjunto de dados original) ao qual poderíamos ajustar os dois modelos.
Jake Westfall
@JakeWestfall Você está certo, quando escrevi isso pela primeira vez, era uma espécie de questão de fluxo de consciência à medida que o problema se desenvolvia. Vou fazer algumas edições e ver se pode ser mais útil. Infelizmente, o código vagueou fora em algum lugar ...
fomite
Feito uma pequena limpeza - o design dos modelos usa as mesmas variáveis. Infelizmente, código, dados etc. estão em outra máquina e estou em uma conferência. A questão raiz poderia ser resumida, eu acho, a "Estimativas de vários sites: os modelos mistos são sempre / frequentemente mais eficientes do que o pool?"
Fomite 03/10/2013

Respostas:

5

Sei que essa é uma pergunta antiga, mas é relativamente popular e tem uma resposta simples, por isso espero que seja útil para outras pessoas no futuro. Para uma análise mais aprofundada, dê uma olhada no curso de Christoph Lippert sobre Modelos Mistos Lineares, que os examina no contexto dos estudos de associação em todo o genoma aqui . Em particular, veja a Aula 5 .

A razão pela qual o modelo misto funciona muito melhor é que ele foi projetado para levar em conta exatamente o que você está tentando controlar: estrutura da população. As "populações" em seu estudo são os diferentes locais, usando, por exemplo, implementações ligeiramente diferentes, mas consistentes, do mesmo protocolo. Além disso, se os sujeitos do seu estudo forem pessoas, as pessoas reunidas em sites diferentes têm menor probabilidade de se relacionar do que as pessoas do mesmo site, portanto, a relação com o sangue também pode desempenhar um papel.

N(Y|Xβ,σ2)KN(Y|Xβ+Zvocê,σ2Eu+σg2K)

Como você está tentando controlar explicitamente a estrutura da população, não é surpresa que o modelo misto linear tenha superado outras técnicas de regressão.

Michael K
fonte