Comparando modelos de efeito misto com o mesmo número de graus de liberdade

15

Eu tenho um experimento que tentarei abstrair aqui. Imagine que eu jogo três pedras brancas na sua frente e peço que faça um julgamento sobre a posição delas. Registro uma variedade de propriedades das pedras e sua resposta. Eu faço isso em vários assuntos. Eu gero dois modelos. Uma é que a pedra mais próxima de você prediz sua resposta, e a outra é que o centro geométrico das pedras prediz sua resposta. Então, usar lmer no RI poderia escrever.

mNear   <- lmer(resp ~ nearest + (1|subject), REML = FALSE)
mCenter <- lmer(resp ~ center  + (1|subject), REML = FALSE)

ATUALIZAÇÃO E MUDANÇA - versão mais direta que incorpora vários comentários úteis

Eu poderia tentar

anova(mNear, mCenter)

O que está incorreto, é claro, porque eles não estão aninhados e eu não posso realmente compará-los dessa maneira. Eu estava esperando que o anova.mer gerasse um erro, mas isso não aconteceu. Mas o possível aninhamento que eu poderia tentar aqui não é natural e ainda me deixa com afirmações um pouco menos analíticas. Quando os modelos são aninhados naturalmente (por exemplo, quadrático em linear), o teste é apenas de uma maneira. Mas, neste caso, o que significaria ter descobertas assimétricas?

Por exemplo, eu poderia fazer um modelo três:

mBoth <- lmer(resp ~ center + nearest + (1|subject), REML = FALSE)

Então eu posso anova.

anova(mCenter, mBoth)
anova(mNearest, mBoth)

É justo fazer isso e agora acho que o centro aumenta o efeito mais próximo (o segundo comando), mas o BIC realmente aumenta quando o mais próximo é adicionado ao centro (correção para a parcimônia mais baixa). Isso confirma o que era suspeito.

Mas isso é suficiente? E isso é justo quando o centro e o mais próximo são tão altamente correlacionados?

Existe uma maneira melhor de comparar analiticamente os modelos quando não se trata de adicionar e subtrair variáveis ​​explicativas (graus de liberdade)?

John
fonte
Seus modelos não estão aninhados, qual seria a lógica para usar um LRT entre os dois?
quer tocar
coisas reafirmadas conforme seu comentário #
John

Respostas:

9

Ainda assim, você pode calcular intervalos de confiança para seus efeitos fixos e relatar AIC ou BIC (consulte, por exemplo, Cnann et al. , Stat Med 1997 16: 2349).

Agora, você pode estar interessado em dar uma olhada em Avaliando a imitação de modelo usando o bootstrap paramétrico , de Wagenmakers et al. que parece mais com a sua pergunta inicial sobre a avaliação da qualidade de dois modelos concorrentes.

Caso contrário, os dois trabalhos sobre medidas de variação explicada no LMM que me vêm à mente são:

  • Lloyd J. Edwards, Keith E. Muller, Russell D. Wolfinger, Bahjat F. Qaqish e Oliver Schabenberger (2008). Uma estatística R2 para efeitos fixos no modelo linear misto , Statistics in Medicine , 27 (29), 6137–6157.
  • Ronghui Xu (2003). A medição da variação explicada nos modelos lineares de efeitos mistos, Statistics in Medicine , 22 (22), 3527-3541.

Mas talvez haja melhores opções.

chl
fonte
11

A sugestão da ronaf leva a um trabalho mais recente de Vuong para um teste de razão de verossimilhança em modelos não aninhados. Baseia-se no KLIC (Critério de Informação Kullback-Leibler), que é semelhante ao AIC, pois minimiza a distância do KL. Mas estabelece uma especificação probabilística para a hipótese, de modo que o uso do LRT leva a uma comparação mais baseada em princípios. Uma versão mais acessível dos testes de Cox e Vuong é apresentada por Clarke et al; em particular, veja a Figura 3, que apresenta o algoritmo para calcular o teste Vuong LRT.

Parece que há implementações R do teste de Vuong em outros modelos, mas não no Lmer. Ainda, o esboço mencionado acima deve ser suficiente para implementar um. Eu não acho que você possa obter a probabilidade avaliada em cada ponto de dados da lmer, conforme necessário para o cálculo. Em uma nota sobre o sig-ME, Douglas Bates tem alguns indicadores que podem ser úteis (em particular, a vinheta que ele menciona).


Mais velho

Outra opção é considerar os valores ajustados dos modelos em um teste de precisão de previsão. A estatística Williams-Kloot pode ser apropriada aqui. A abordagem básica é regredir os valores reais contra uma combinação linear dos valores ajustados dos dois modelos e testar a inclinação:

O primeiro artigo descreve o teste (e outros), enquanto o segundo tem uma aplicação em um modelo de painel econométrico.


Ao usar lmere comparar AICs, o padrão da função é usar o método REML (verossimilhança máxima restrita). Isso é bom para obter estimativas menos tendenciosas, mas ao comparar modelos, você deve reajustar com o REML=FALSEque usa o método de máxima verossimilhança para ajuste. O livro Pinheiro / Bates menciona algumas condições sob as quais é aceitável comparar AIC / Probabilidade com REML ou ML, e isso pode muito bem se aplicar ao seu caso. No entanto, a recomendação geral é simplesmente reajustar. Por exemplo, veja a publicação de Douglas Bates aqui:

ars
fonte
Não especifiquei que estava ajustando com REML = FALSE. Ainda estou um pouco desajeitado ... A AIC me fornece uma medida de toda a probabilidade, incluindo os efeitos aleatórios. Esse é um componente grande. E, é claro, é extremamente improvável que as AIC sejam exatamente as mesmas. Portanto, parece imprudente selecionar apenas o valor maior sem uma maneira analítica de determinar quanto maior ele é.
John
@John Esta palestra destaca um ponto interessante sobre REML vs. ML e AIC (e aponta para o que você disse, John), j.mp/bhUVNt . A revisão de Bolker do GLMM também vale a pena dar uma olhada em: j.mp/cAepqA .
chl
4

há um artigo por drcox que discute o teste de modelos separados [não aninhados]. considera alguns exemplos, que não aumentam a complexidade dos modelos mistos. [como minhas instalações com código R são limitadas, não tenho muita certeza de quais são seus modelos.]

O artigo de altho cox pode não resolver seu problema diretamente, mas pode ser útil de duas maneiras possíveis.

  1. você pode pesquisar no Google Scholar por citações em seu artigo, para ver se esses resultados subsequentes se aproximam do que você deseja.

  2. se você tem uma inclinação analítica, pode tentar aplicar o método de cox ao seu problema. [talvez não para os fracos de coração.]

btw - cox menciona ao passar a idéia bastante abordada de combinar os dois modelos em um maior. ele não entende como alguém decidiria qual modelo é melhor, mas observa que, mesmo que nenhum dos modelos seja muito bom, o modelo combinado pode dar um ajuste adequado aos dados. [não está claro na sua situação que um modelo combinado faria sentido.]

ronaf
fonte
3

Não conheço R o suficiente para analisar seu código, mas aqui está uma idéia:

Estime um modelo em que você tem o centro e o lado como covariáveis ​​(chame isso mBoth). Em seguida, o mCenter e o mNear são aninhados no mBoth e você pode usar o mBoth como referência para comparar o desempenho relativo do mCenter e do mNear.


fonte
1
Eu estava pensando que isso não seria apropriado porque os dois seriam realmente altamente correlacionados. Como o centro está longe, o próximo tenderá a estar.
John
@ John Bom ponto.
Eu acho que o seu ponto também é bom ... Na verdade, não tenho certeza se isso importa. Eu sei que é alto, mas abaixo de 0,8 ... ainda analisável.
John