Por que você preveria a partir de um modelo de efeito misto sem incluir efeitos aleatórios para a previsão?

10

Esta é mais uma pergunta conceitual, mas como eu uso R, vou me referir aos pacotes em R. Se o objetivo é ajustar um modelo linear para fins de previsão e, em seguida, fazer previsões onde os efeitos aleatórios podem não estar disponíveis, existe algum benefício em usar um modelo de efeitos mistos ou um modelo de efeito fixo deve ser usado?

Por exemplo, se eu tiver dados sobre peso x altura com algumas outras informações e construir o seguinte modelo usando lme4, em que assunto é um fator com níveis ( ):n = n o . s a m p l e snn=no.sumampeues

mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)

Quero poder prever o peso do modelo usando novos dados de altura e idade. Obviamente, a variação por sujeito nos dados originais é capturada no modelo, mas é possível usar essas informações na previsão? Digamos que eu tenha alguns novos dados de altura e idade e queira prever o peso, posso fazer o seguinte:

predict(mod1,newdata=newdf) # newdf columns for height, age, subject

Isso será usado predict.merMode posso incluir uma coluna para (novos) assuntos newdfou definir re.form =~0. Em uma primeira instância, não está claro o que o modelo faz com os 'novos' fatores de sujeito e, em uma segunda instância, a variação por sujeito capturada no modelo será simplesmente ignorada (calculada a média) para a previsão?

Nos dois casos, parece-me que um modelo linear de efeito fixo pode ser mais apropriado. De fato, se meu entendimento estiver correto, um modelo de efeito fixo deve prever os mesmos valores que o modelo misto, se o efeito aleatório não for usado na previsão. Deve ser esse o caso? Nele Rnão é, por exemplo:

mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)

predict(mod1,newdata=newdf, re.form=~0) # newdf columns for height, age, subject

produz resultados diferentes para:

mod2 <- lm(weight ~ height + age, data=df)

predict(mod2,newdata=newdf) # newdf columns for height, age


tribalsoul
fonte
11
Poderia ser yoy quer prever para um novo grupo que não foi incluída na estimativa
Kjetil b Halvorsen
Sim, mas nesse caso, por que se preocupar com um modelo de efeito misto? O que é que um modelo de efeito fixo não fornece se você ignora os efeitos aleatórios na previsão?
tribalsoul
11
Bem, pode dar melhores estimadores, porque você tem um modelo melhor (mais correto) da estrutura de erro
b Kjetil Halvorsen

Respostas:

5

Experiência simples de pensamento: você mediu o peso e a altura de cinco bebês após o nascimento. E você mediu dos mesmos bebês novamente depois de dois anos. Enquanto isso, você mede o peso e a altura da sua filha bebê quase todas as semanas, resultando em 100 pares de valores para ela. Se você usar um modelo de efeitos mistos, não há problema. Se você usa um modelo de efeitos fixos, coloca um peso indevido nas medições de sua filha, a um ponto em que você obteria quase o mesmo modelo se usasse apenas dados dela. Portanto, não é apenas importante a inferência modelar medidas repetidas ou estruturas de incerteza corretamente, mas também a previsão. Em geral, você não obtém as mesmas previsões de um modelo de efeitos mistos e de um modelo de efeitos fixos (com suposições violadas).

e posso incluir uma coluna para (novos) assuntos no newdf

Não é possível prever assuntos que não faziam parte dos dados originais (de treinamento). Novamente um experimento mental: o novo sujeito é obeso. Como o modelo poderia saber que está na extremidade superior da distribuição de efeitos aleatórios?

a variação por sujeito capturada no modelo será simplesmente ignorada (média acima) para a previsão

Se eu entendi corretamente, então sim. O modelo fornece uma estimativa do valor esperado para a população (observe que essa estimativa ainda está condicionada aos sujeitos originais).

Roland
fonte
11
Obrigado pela explicação e exemplo claros, tudo isso faz sentido. No entanto, onde você declara You can't predict for subjects which were not part of the original (training) data; A definição re.form=~0e previsão do valor esperado da população não me permite fazer exatamente isso? É verdade que o modelo não está usando nenhuma informação específica do sujeito na previsão, mas é justo dizer que a estimativa de um modelo de efeito misto ainda será mais precisa do que a de um modelo equivalente de efeito fixo em que a variação específica do sujeito foi ignorado?
tribalsoul
11
O modelo fixo não é aplicável, pois suas premissas são violadas. Você deve usar um modelo que inclua uma estrutura de dependência. re.form=~0fornece a previsão em nível de população, que é o melhor que você pode fazer para novos assuntos.
Roland
Eu tive a mesma pergunta ao usar o glmmLasso pacote em R. O autor do pacote, Andreas Groll, afirmou que o procedimento glmmLasso usa apenas os efeitos fixos para fazer previsões para novos assuntos e efeitos fixos + aleatórios para assuntos existentes no próximo período.
RobertF