Eu estive analisando a modelagem de efeitos mistos usando o pacote lme4 em R. Estou usando principalmente o lmer
comando, por isso vou fazer minha pergunta por meio de código que usa essa sintaxe. Suponho que possa ser uma pergunta fácil geral, é correto comparar dois modelos construídos no lmer
uso de taxas de verossimilhança com base em conjuntos de dados idênticos? Acredito que a resposta deve ser "não", mas posso estar incorreta. Eu li informações conflitantes sobre se os efeitos aleatórios devem ser os mesmos ou não, e qual componente dos efeitos aleatórios significa isso? Então, apresentarei alguns exemplos. Vou tirá-los de dados de medidas repetidas usando estímulos de palavras, talvez algo como Baayen (2008) seja útil na interpretação.
Digamos que eu tenho um modelo em que existem dois preditores de efeitos fixos, os quais chamaremos de A e B, e alguns efeitos aleatórios ... palavras e assuntos que os perceberam. Eu poderia construir um modelo como o seguinte.
m <- lmer( y ~ A + B + (1|words) + (1|subjects) )
(observe que deixei de fora intencionalmente data =
e assumiremos que sempre quero dizer REML = FALSE
com clareza)
Agora, dos seguintes modelos, quais são aceitáveis para comparar com uma razão de verossimilhança ao modelo acima e quais não são?
m1 <- lmer( y ~ A + B + (A+B|words) + (1|subjects) )
m2 <- lmer( y ~ A + B + (1|subjects) )
m3 <- lmer( y ~ A + B + (C|words) + (A+B|subjects) )
m4 <- lmer( y ~ A + B + (1|words) )
m5 <- lmer( y ~ A * B + (1|subjects) )
Reconheço que a interpretação de algumas dessas diferenças pode ser difícil ou impossível. Mas vamos deixar isso de lado por um segundo. Eu só quero saber se há algo fundamental nas mudanças aqui que exclui a possibilidade de comparação. Também quero saber se, se os LRs estão bem, e as comparações da AIC também.
Respostas:
Usando a máxima probabilidade, qualquer um destes pode ser comparado com o AIC; se os efeitos fixos forem os mesmos (
m1
param4
), usar REML ou ML é bom, com REML geralmente preferido, mas se forem diferentes, somente ML pode ser usado. No entanto, a interpretação geralmente é difícil quando os efeitos fixos e os aleatórios estão mudando; portanto, na prática, a maioria recomenda mudar apenas um ou o outro de cada vez.O uso do teste da razão de verossimilhança é possível, mas confuso, porque a aproximação qui-quadrado usual não se aplica ao testar se um componente de variação é zero. Veja a resposta da Aniko para obter detalhes. (Parabéns à Aniko por ler a pergunta com mais cuidado do que eu e por ler a resposta original com cuidado o suficiente para perceber que ela perdeu esse ponto. Obrigado!)
Pinhiero / Bates é a referência clássica; descreve o
nlme
pacote, mas a teoria é a mesma. Bem, principalmente o mesmo; Doug Bates mudou suas recomendações sobre inferência desde que escreveu esse livro e as novas recomendações estão refletidas nolme4
pacote. Mas é mais do que quero entrar aqui. Uma referência mais legível é Weiss (2005), Modeling Longitudinal Data.fonte
m
m
m4
m
m2
No entanto, como a @Aaron afirmou, muitos especialistas não recomendam fazer um teste de razão de verossimilhança como este. Alternativas potenciais são os critérios de informação (AIC, BIC, etc.) ou a inicialização do LRT.
[1] Self, SG & Liang, K. Propriedades assintóticas de estimadores de máxima verossimilhança e testes de razão de verossimilhança sob condições fora do padrão J. Amer. Statist. Assoc., 1987, 82, 605-610.
fonte