Esta é mais uma pergunta conceitual, mas como eu uso R
, vou me referir aos pacotes em R
. Se o objetivo é ajustar um modelo linear para fins de previsão e, em seguida, fazer previsões onde os efeitos aleatórios podem não estar disponíveis, existe algum benefício em usar um modelo de efeitos mistos ou um modelo de efeito fixo deve ser usado?
Por exemplo, se eu tiver dados sobre peso x altura com algumas outras informações e construir o seguinte modelo usando lme4
, em que assunto é um fator com níveis ( ):n = n o . s a m p l e s
mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)
Quero poder prever o peso do modelo usando novos dados de altura e idade. Obviamente, a variação por sujeito nos dados originais é capturada no modelo, mas é possível usar essas informações na previsão? Digamos que eu tenha alguns novos dados de altura e idade e queira prever o peso, posso fazer o seguinte:
predict(mod1,newdata=newdf) # newdf columns for height, age, subject
Isso será usado predict.merMod
e posso incluir uma coluna para (novos) assuntos newdf
ou definir re.form =~0
. Em uma primeira instância, não está claro o que o modelo faz com os 'novos' fatores de sujeito e, em uma segunda instância, a variação por sujeito capturada no modelo será simplesmente ignorada (calculada a média) para a previsão?
Nos dois casos, parece-me que um modelo linear de efeito fixo pode ser mais apropriado. De fato, se meu entendimento estiver correto, um modelo de efeito fixo deve prever os mesmos valores que o modelo misto, se o efeito aleatório não for usado na previsão. Deve ser esse o caso? Nele R
não é, por exemplo:
mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)
predict(mod1,newdata=newdf, re.form=~0) # newdf columns for height, age, subject
produz resultados diferentes para:
mod2 <- lm(weight ~ height + age, data=df)
predict(mod2,newdata=newdf) # newdf columns for height, age
fonte
Respostas:
Experiência simples de pensamento: você mediu o peso e a altura de cinco bebês após o nascimento. E você mediu dos mesmos bebês novamente depois de dois anos. Enquanto isso, você mede o peso e a altura da sua filha bebê quase todas as semanas, resultando em 100 pares de valores para ela. Se você usar um modelo de efeitos mistos, não há problema. Se você usa um modelo de efeitos fixos, coloca um peso indevido nas medições de sua filha, a um ponto em que você obteria quase o mesmo modelo se usasse apenas dados dela. Portanto, não é apenas importante a inferência modelar medidas repetidas ou estruturas de incerteza corretamente, mas também a previsão. Em geral, você não obtém as mesmas previsões de um modelo de efeitos mistos e de um modelo de efeitos fixos (com suposições violadas).
Não é possível prever assuntos que não faziam parte dos dados originais (de treinamento). Novamente um experimento mental: o novo sujeito é obeso. Como o modelo poderia saber que está na extremidade superior da distribuição de efeitos aleatórios?
Se eu entendi corretamente, então sim. O modelo fornece uma estimativa do valor esperado para a população (observe que essa estimativa ainda está condicionada aos sujeitos originais).
fonte
You can't predict for subjects which were not part of the original (training) data
; A definiçãore.form=~0
e previsão do valor esperado da população não me permite fazer exatamente isso? É verdade que o modelo não está usando nenhuma informação específica do sujeito na previsão, mas é justo dizer que a estimativa de um modelo de efeito misto ainda será mais precisa do que a de um modelo equivalente de efeito fixo em que a variação específica do sujeito foi ignorado?re.form=~0
fornece a previsão em nível de população, que é o melhor que você pode fazer para novos assuntos.glmmLasso
pacote em R. O autor do pacote, Andreas Groll, afirmou que o procedimento glmmLasso usa apenas os efeitos fixos para fazer previsões para novos assuntos e efeitos fixos + aleatórios para assuntos existentes no próximo período.